价 。Farecast 票 价 预测 的 准确 度 已 经 高 达 75%， 使 用 Farecast 票 价 预测 工具 购买 机 票 的 旅客 ， 平 均 每 张 机 票 可 节 


为 什么 要 写 这 本 书 


到 2012 年 为 止 ，Farecast 系 统 用 了 将 近 十 万 亿 条 价格 记录 来 帮助 预测 美国 国内 航班 的 
业 、 银 行 、 保 险 、 证 券 等 对 大 数据 分 析 与 挖掘 的 应 用 并 不 


完整 零售 


省 50 美 元 [1。 
也 代表 了 当今 世界 发 展 的 趋势 。 但 与 国外 相 比 ， 我 国 由 于 信息 化 程度 不 太 高 ， 企 业内 部 信息 不 

太 理 想 。 但 随 着 市 场 竞争 的 加 剧 ， 各 行业 对 大 数据 分 析 与 挖掘 技术 的 研究 与 应 用 意愿 越 来 越 强 烈 ， 可 以 预计 ， 未 来 几 年 ， 各 行业 的 数据 分 析 一 定 都 是 大 规模 的 数据 挖掘 与 应 用 。 在 大 数据 时 代 ， 数 据 过 利 、 
积累 。 所 以 ， 本 书 在 注重 大 数据 时 代数 据 挖掘 理论 的 同时 ， 也 注意 与 大 数据 项 目 案例 实践 相 结 合 ， 这 样 可 以 让 读者 体验 真实 的 大 数据 挖掘 学 


Farecast 是 大 数据 公司 的 一 个 缩影 
M /经 验 N 
经 渗透 到 每 一 个 行业 和 业务 职能 领域 ， 逐 渐 成 为 重要 的 生产 要 素 ， 人 们 对 于 海量 数据 的 运用 将 预示 


IIE 


人 才 短缺 ， 数 据 挖 掘 专 业 人 才 的 培养 又 需要 专业 知识 和 职业 
习 与 实践 环境 ， 更 快 、 更 好 地 学 习 大 数据 分 析 与 挖掘 知识 以 及 积累 职业 经 3 
总 地 来 说 ， 随 着 大 数据 时 代 的 来 临 ， 大 数据 分 析 与 挖掘 技术 将 具有 越 来 越 重 要 的 战略 意义 。 大 数据 已 
着 新 一 轮 生产 率 增长 和 消费 者 盈余 浪潮 的 到 来 。 大 数据 分 析 与 挖 握 技术 将 帮助 企业 用 户 在 合理 时 间 内 抽取 、 管 理 、 处 理 、 整 理 海量 数据 ， 为 企业 经 营 决策 提供 积极 的 帮助 。 大 数据 分 析 与 挖 扎 作为 数据 存储 
和 挖掘 分 析 的 前 治 技术 ， 广 泛 应 用 于 物 联 网 、 云 计算 、 移 动 豆 联网 等 战略 性 新 兴 产 业 。 昌 然 大 数据 目前 在 国内 还 处 于 初级 阶段 ， 但 是 其 商业 价值 已 经 显现 出 来 ， 特 别 是 有 实践 经 验 的 大 数据 分 析 人 才 更 是 各 


企业 争夺 的 热门 资源 。 
测 、 聚 类 分 析 、 天 


大 数据 时 代 来 临 ， 风 云 变 化 ， 时 不 我 待 ! 
本 书 特 色 
以 真实 案例 为 主线 ， 深 入 浅 出 介绍 大 数据 挖掘 项 目 中 针对 数据 分 析 的 各 个 流程 : 数据 探索 、 数 据 预 处 理 、 分 类 与 预测 
提出 挖掘 目标 ， 再 阐述 针对 这 个 目标 使 用 的 大 数据 挖掘 分 析 方 法 与 过 程 ， 最 后 完成 模型 构建 ， 在 介 


本 书 作 者 从 实践 出 发 ， 结 合 大 量 大 数据 挖掘 工程 案例 及 教 
联 规则 挖掘 、 智 能 推荐 等 。 因 此 ， 图 书 的 编排 以 解决 某 个 大 数据 应 用 的 挖掘 目标 为 前 提 ， 先 介绍 案例 
绍 建 模 过 程 中 会 针对 每 个 大 数据 项 目的 特点 进行 分 析 ， 同 时 提供 上 机 实验 ， 把 相关 的 建 模 操作 提供 给 读者 。 在 本 书 的 高 级 篇 中 ， 介 绍 大 数据 挖掘 的 二 次 开发 实例 ， 方 便 有 能 力 的 读者 进行 相关 二 次 开发 。 


学 经 验 ， 
a6 EH 
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根据 读者 对 案例 的 理解 ， 本 书 配套 提供 了 真实 的 原始 样本 数据 文件 及 建 模仿 真 平台 ， 读 者 可 以 从 “ 泰 迪 杯 ”全 国 大 学 生 数 据 挖 掘 竞赛 网 站 (http://www.tipdm.org/ts/655jhtml) 免费 下 载 。 另 外 ， 为 


方便 教师 授课 需要 ， 图 书 还 特意 提供 了 建 模 阶段 的 过 程 数据 文件 、PPT 课 件 ， 读 者 可 通过 “勘误 与 支持 ”中 的 联系 方式 咨询 或 者 获取 文件 。 


召 。 因 为 单纯 的 理论 教 


本 书 适用 对 象 
“ 开设 有 大 数据 挖 气 课 程 的 高 校 教 师 和 学 生 。 
目前 国内 不 少 高 校 将 数据 挖掘 引入 本 科教 学 中 ， 在 数学 、 计 算 机 、 自 动 化 、 电 子 信息 、 金 融 等 专业 开设 了 数据 挖掘 技术 相关 的 课程 ， 但 目前 这 一 课程 的 教学 仍然 主要 限于 理论 介 
学 过 于 抽象 ， 学 生理 解 起 来 往往 比较 困难 ， 教 学 效果 也 不 甚 理想。 本 书 提供 的 基于 实战 案例 和 建 模 实践 的 教学 内 容 ， 能 够 使 师 生 充分 发 挥 互 动 性 和 创造 性 ， 理 论 联 系 实际 ， 使 师 生 获得 最 佳 的 教学 效果 。 
© 大 数据 挖掘 开发 人 员 。 
这 类 人 员 可 以 在 理解 大 数据 挖掘 应 用 需求 和 设计 方案 的 基础 上 ， 结 合 图 书 提供 的 基于 第 三 方 接口 快速 实现 大 数据 挖掘 应 用 的 编程 。 
需求 分 析 及 系统 设计 人 员 。 
结合 数据 挖掘 案例 完成 精确 营销 、 客 户 分 群 、 交 叉 销 售 、 流 失 分 析 、 客 户 信用 记分 、 欺 诈 发 现 、 智 能 推荐 等 数据 挖掘 应 用 的 需求 分 析 和 设计 。 
这 些 科 研 业 务 管理 系统 一 般 没 有 对 这 些 数据 进行 深 


这 类 人 员 可 以 在 理解 数据 挖掘 原理 及 建 模 过 程 的 基础 上 ， 


© 进行 大 数据 挖掘 应 用 研究 的 科研 人 员 。 
许多 科研 院 所 为 了 更 好 地 对 科研 工作 进行 管理 ， 纷 纷 开发 了 适应 自身 特点 的 科研 业务 管理 系统 ， 并 在 使 用 过 程 中 积累 了 大 量 的 科研 信息 数据 。 但 是 


行 
入 分 析 ， 对 数据 所 隐藏 的 价值 并 没有 进行 充分 挖掘 利用 。 科 研 人 员 需 要 大 数据 挖掘 建 模 工 具 及 有 关 方 法 论 来 深 挖 科研 信息 的 价值 ， 从 而 提高 科研 水 平 。 
未 来 的 发 展 状况 ， 让 他 们 的 机 构 能 够 先发制人 ， 而 不 是 处 于 被 


业 资 源 计 划 (ERP) 、 结 构 数据 库 和 普通 文件 中 的 模式 和 趋势 ， 从 
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业务 报告 和 商业 智能 解决 方案 对 于 了 解 过 去 和 现在 的 状况 可 能 是 非常 有 用 的 。 但 是 ， 数 据 挖掘 的 预测 分 析 解 决 方案 还 能 使 i 
的 统计 方法 和 机 器 学 习 技术 应 用 到 数据 之 中 ， 通 过 预测 分 析 技 术 来 揭示 隐藏 在 交 


* 关注 大 数据 分 析 的 人 员 。 


获得 大 数据 项 目 挖 


动 。 因 为 数据 挖掘 的 预测 分 析 解 决 方案 ; 
IAS 


而 为 决策 提供 科学 依据 。 


如 何 阅 读本 书 
第 3 章 介绍 了 大 


基础 篇 、 实 战 篇 、 高 级 篇 。 基 础 篇 介绍 了 数据 挖掘 、Hadoop 大 数据 的 基本 原理 ， 实 战 篇 通过 对 案例 深入 浅 出 的 剖析 ， 使 读者 在 不 知 不 觉 中 通过 案例 实践 
介绍 ; 


读者 在 阅读 过 程 中 ， 应 充分 利用 随 书 配套 的 案例 建 模 数据 ， 借 助 TipDM-HB 大 数据 挖掘 建 模 平 台 ， 通 过 上 机 实验 ， 快 速 理 解 相关 知识 刁 


本 书 共 16 章 ， 分 三 个 部 分 : 
掘 分 析 经 验 ， 同 时 快速 领悟 看 似 难 懂 的 大 数据 分 析 与 挖掘 理论 知识 
理论 。 
第 一 部 分 是 基础 篇 (第 1~6 章 ) ， 第 1 章 的 主要 内 容 是 数据 挖掘 概述 、 大 数据 餐饮 行业 应 用 ; 第 2 章 针对 大 数据 理论 知识 进行 基础 讲解 ， 简 明 扼要 地 针对 Hadoop 安 装 、 原 理 等 做 了 
第 5 章 介绍 了 几 种 大 数据 挖掘 建 模 平台 ， 同 时 重点 介绍 了 本 书 使 用 的 开源 TipDM -HB 大 数据 挖掘 平台 ; 第 6 章 介 
Mahout 中 的 实现 原理 。 
、 互 联网 、 生 产 制 造 以 及 公共 服务 等 行业 的 应 用 。 在 案例 结构 组 织 上 ， 按 照 先 介绍 案例 背景 与 挖掘 


数据 仓库 Hive 的 安装 、 原 理 等 内 容 ; 第 4 章 介 绍 了 大 数据 数据 库 HBase 的 安装 、 原 理 等 内 容 ; 
算法 库 
最 后 通过 上 机 实践 ， 加 深 对 大 数据 挖掘 案 例 的 认识 以 及 分 析 流程 。 


绍 数据 挖掘 的 建 模 过 程 、 各 种 挖掘 建 模 的 带 用 算法 与 原理 以 及 挖掘 建 模 在 大 数据 挖掘 算 ; 


二 部 分 是 实战 篇 (第 7~ 14 章 ) ， 重 点 分 析 大 数据 挖掘 技术 在 法 律 咨 询 、 电 子 商 务 、 航 空 、 移 动 通信 
目标 ， 再 前 述 大 数据 时 代 针 对 大 数据 的 分 析 方 法 与 过 程 ， 最 后 完成 模型 构建 的 顺序 进行 的 ， 详 细 分 析 了 建 模 过 程 关键 环节 
介绍 了 基于 Hadoop 大 数据 开发 的 相关 技术 以 及 开发 步骤 ， 并 使 用 实例 来 展示 这 些 步骤 ， 使 读者 可 以 自己 动手 实践 ， 亲 自体 会 开发 的 乐趣 ， 还 介绍 了 基于 TipDM- 


第 三 部 分 是 高 级 篇 (第 15~16 章 ) , 


HB 大 数据 挖掘 平台 的 二 次 开发 实例 ， 借 助 TipDM -HB 大 数据 挖掘 平台 二 次 开发 工具 ， 可 以 更 加 快捷 、 高 效 地 完成 相关 大 数据 应 用 的 二 次 开发 ， 降 低 开 发 难度 ， 使 读者 更 方便 地 体会 到 大 数据 分 析 与 挖掘 的 强 


大 魅力 。 


勘误 和 支持 


除 封面 署 名 外 ， 参 加 本 书 编写 工作 的 还 有 刘 名 军 、 肖 刚 、 云 伟 标 、 王 路 、 刘 晓 勇 、 薛 云 、 雇 晓 霞 、 徐 英 刚 等 。 由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 层 请 
读者 批评 指正 。 为 此 ， 读 者 可 通过 笔者 微 信 公众 号 TipDM ( 微 信号 : TipDataMining) 、TipDM 官 网 (www.tipdm.com) 反馈 有 关 问题 。 也 可 通过 热线 电话 (40068-40020) 或 企业 QQ (40068- 
40020) 进行 在 线 咨询 或 通过 扫描 以 下 微 信 公 众 号 的 二 维 码 咨 询 获取 。 


读者 可 以 将 书 中 的 错误 及 遇 到 的 任何 问题 反馈 给 我 们 ， 我 们 将 尽量 在 线 上 为 读者 提供 最 满意 的 解答 。 图 书 的 全 部 建 模 数据 文件 及 源 程序 ， 可 以 从 全 国 大 学 生 数 据 挖掘 竞赛 网 站 (www.tipdm.org) 下 
载 ， 我 们 会 将 相应 内 容 的 更 新 及 时 发 布 更 正 出 来 。 如 果 您 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮件 至 邮箱 13560356095@qq.com， 期 待 能 够 得 到 您 的 真挚 反馈 。 
致谢 
在 本 书 编写 过 程 中 ， 得 到 了 广大 企 事 业 单位 科研 人 员 的 大 力 支持 ! 在 此 谨 向 中 国电 力 科学 研究 院 、 广 东 电 力 科学 研究 院 、 广 西 电 力 科学 研究 院 、 华 南 师范 大 学 、 广 东 工 业 大 学 、 广 东 技术 师 范 学 院 、 南 
京 中 医药 大 学 、 华 南 理工 大 学 、 湖 南 师范 大 学 、 韩 山 师范 学 院 、 中 山大 学 、 广 州 泰 迪 智能 科技 有 限 公司 、 武 汉 泰 迪 智 慧 科技 有 限 公司 等 单位 给 予 支持 的 专家 及 师 生 致 以 深 深 的 谢意 。 
在 本 书 的 编辑 和 出 版 过 程 中 还 得 到 了 参与 “ 泰 迪 杯 ” 全 国 大 学 生 数 据 挖掘 建 模 竞赛 (http://www.tipdm.org) 的 众多 师 生 及 机 械 工 业 出 版 社 杨 福 川 、 高 婧 雅 等 无 私 的 帮助 与 支持 ， 在 此 一 并 表示 感谢 。 
张 良 均 


[1] 维克托 : 迈 尔 .会 恩 伯 格 .大 数据 时 代 - 生 活 、 工 作 与 思维 的 大 变革 .2012 


基础 篇 


RIE ”数据 挖掘 基础 

: 第 2 章 ”Hadoop 基 础 

: 第 3 章 Hadoop 生 态 系 统 : Hive 

- 第 4 章 Hadoop 生 态 系 统 : HBase 
(RSE ”大 数据 挖掘 建 模 平台 


-ROF FEMI 


第 1 章 数据 挖掘 基 础 


1.1 菏 知 名 连锁 餐饮 企业 的 困惑 


国内 某 餐 饮 连 锁 有 限 公 司 (以 下 简称 T 餐 饮 ) 成 立 于 1998 年 ， 主 要 经 莒 粤菜 ， 兼 顾 酒菜、 川菜 、 中 和 餐 等 综合 菜系 。 人 至 今 已 经 发 展 成 为 在 国内 具有 一 定 知名 度 、 美 誉 度 ， 多 品牌 、 立 体 化 的 大 型 餐饮 连锁 
企业 。 属 下 员工 1000 多 人 ， 拥 有 16 家 直 营 分 店 ， 经 莒 总 面积 近 13000 平 方 米 ， 年 营业 额 近 亿 元 。 其 旗下 各 分 店 均 坐 落 在 繁华 市 区 主干 道 ， 雅 致 的 装潢 ， 配 之 以 精致 的 饰品 、 灯 具 、 器 物 ， 出 品 精美 ， 服 务 规 


A 
7 已 。 


近年 来 餐饮 行业 面临 较为 复杂 的 市 场 环境 ， 与 其 他 行业 一 样 ， 餐 饮 企 业 都 遇 到 了 原材料 成 本 升 高 、 人 力 成 本 升 高 、 房 租 成 本 升 高 等 问题 ， 这 也 使 得 整个 行业 的 利润 率 急剧 下 降 。 人 力 成 本 和 房租 成 本 的 
上 升 是 必然 趋势 ， 如 何在 保持 产品 质量 的 同时 提高 企业 效率 ， 成 为 了 T 和 餐饮 急需 面 对 的 问题 。 从 2000 年 开始 ，T 餐 饮 通 过 加 强 信息 化 管理 来 提高 效率 ， 目 前 已 上 线 的 管理 系统 包括 以 下 几 个 。 


(1) 客户 关系 管理 系统 


该 系统 详细 记录 了 每 位 客人 的 喜好 ， 为 顾客 提供 个 性 化 服务 ， 满 足 客 户 个 性 化 需求 。 通 过 客户 关怀 ， 提 高 客户 的 忠诚 度 。 比 如 企业 能 随时 查询 了 解 今天 哪 位 客人 过 生日 或 其 他 纪念 日 ， 根 据 客人 的 价值 


分 类 进行 相应 关怀 ， 如 送 鲜 花 、 生 日 蛋糕 、 寿 面 等 。 通 过 本 系统 ， 还 可 对 客户 行为 进行 深入 分 析 ， 包 括 客户 价值 分 析 、 新 客户 分 析 与 发 展 ， 并 根据 其 价值 情况 提供 给 管理 者 ， 为 企业 提供 决策 支持 。 
(2) 前 厅 管 理 系统 


该 系统 通过 掌上 电脑 无 线 点 菜 方式 ， 改 变 了 传统 “饭店 点 菜 、 下 单 、 结 账 一 支 笔 、 一 张 纸 ， 服 务 员 来 回 跑 的 局 面 ”， 人 快速 完成 点 菜 过 程 。 通 过 厨房 自动 送 达 信息 ， 服 务 员 的 写 菜 速 度 加 快 不 需要 再 通过 
手写 ， 同 时 传 菜 部 也 轻松 不 少 ， 莱 单 会 通过 电脑 自动 打印 出 来 ， 差 错 率 降低 ， 也 不 存在 厨房 人 员 看 不 懂 服 务 员 字 迹 而 搞 错 的 问题 。 


(3) 后 厨 管理 系统 


信息 化 技术 可 实现 后 厨 与 前 厅 沟 通 无 障碍 ， 客 人 菜单 瞬间 传 到 厨房 。 服 务 员 只 需 点 击 掌上 电脑 的 发 送 键 ， 客 人 的 菜单 即 被 传送 到 收银 管理 系统 中 ， 由 系统 的 电脑 发 出 指令 ， 设 在 厨房 等 处 的 打印 机 立即 
打印 出 相应 的 菜单 ， 厨 师 按 单 做 菜 。 与 此 同时 ， 收 银 台 也 打印 出 一 张 同样 的 菜单 放 在 客人 桌 上 ， 以 备 客人 查询 以 及 作 结 账 凭据 ， 使 客人 明明 白白 消费 。 


(4) 财务 管理 系统 


该 系统 完成 销售 统计 、 销 售 分 析 、 财 务 审计 ， 实 现 对 日 常 经 莒 销售 的 管理 。 通 过 报表 ， 企 业 管理 者 很 容易 掌握 前 台 的 销售 情况 ， 从 而 达到 对 财务 的 控制 。 通 过 表格 和 图 形 可 以 显示 餐厅 的 销售 情况 ， 如 
菜品 排行 榜 、 日 客户 流量 、 日 销售 收入 分 析 等 ; 统计 每 天 的 出 菜 情况 ， 可 以 了 解 哪 些 是 清 销 菜 ， 哪 些 是 畅销 菜 ， 从 而 了 解 顾 客 的 品位 ， 有 针对 性 地 制订 出 一 套 既 适合 餐饮 企业 发 展 又 能 迎合 顾客 品位 的 菜肴 
体系 和 定价 策略 。 


(5) 物资 管理 系统 


该 系统 主要 完成 对 物资 的 进 销 存 ， 实 际 上 就 是 一 套 融 采购 管理 (入 库 、 供 应 商 管理 、 账 款 管理 ) 、 销 售 (通过 配 菜 卡 与 前 台 销 售 联动 ) 、 盘 存 为 一 体 的 物流 管理 系统 。 对 于 连锁 企业 ， 还 涉及 统一 配送 


管理 等 。 


通过 以 上 信息 化 的 建设 ，T 餐 饮 已 经 积累 了 大 量 的 历史 数据 ， 有 没有 一 种 方法 可 才 助 企业 从 这 些 数 据 中 洞察 商机 ， 提 取 价 值 ? 在 同 质 化 的 市 场 竞 争 中 ， 怎 样 找到 一 些 市 场 以 前 并 不 存在 的 “ 抢 漏 ”和 “ 补 
ge? 


第 1 章 ”数据 挖掘 基础 


1.1 “有 某 关 名 连锁 餐饮 企业 的 困惑 


国内 某 餐 饮 连 锁 有 限 公司 (以 下 简称 T 餐 饮 ) 成 立 于 1998 年 ， 主 要 经 莒 粤菜 ， 兼 顾 酒菜、 川菜 、 中 餐 等 综合 菜系 。 至 今 已 经 发 展 成 为 在 国内 具有 一 定 知名 度 、 美 誉 度 ， 多 品牌 、 立 体 化 的 大 型 餐饮 连锁 
企业 。 属 下 员工 1000 多 人 ， 拥 有 16 家 直 营 分 店 ， 经 莒 总 面积 近 13000 平 方 米 ， 年 营业 额 近 亿 元 。 其 旗下 各 分 店 均 坐 落 在 繁华 市 区 主干 道 ， 雅 致 的 装潢 ， 配 之 以 精致 的 饰品 、 灯 有 具 、 器 物 ， 出 品 精美 ， 服 务 规 


A 
7 已 。 


近年 来 餐饮 行业 面临 较为 复杂 的 市 场 环境 ， 与 其 他 行业 一 样 ， 餐 饮 企 业 都 遇 到 了 原材料 成 本 升 高 、 人 力 成 本 升 高 、 房 租 成 本 升 高 等 问题 ， 这 也 使 得 整个 行业 的 利润 率 急 剧 下 降 。 人 力 成 本 和 房租 成 本 的 
上 升 是 必然 趋势 ， 如 何在 保持 产品 质量 的 同时 提高 企业 效率 ， 成 为 了 T 和 餐饮 急需 面 对 的 问题 。 从 2000 年 开始 ，T 和 餐饮 通过 加 强 信息 化 管理 来 提高 效率 ， 目 前 已 上 线 的 管理 系统 包括 以 下 几 个 。 


(1) 客户 关系 管理 系统 


该 系统 详细 记录 了 每 位 客人 的 喜好 ， 为 顾客 提供 个 性 化 服务 ， 满 足 客 户 个 性 化 需求 。 通 过 客户 关怀 ， 提 高 客户 的 忠诚 度 。 比 如 企业 能 随时 查询 了 解 今天 哪 位 客人 过 生日 或 其 他 纪念 日 ， 根 据 客人 的 价值 
分 类 进行 相应 关怀 ， 如 送 鲜 花 、 生 日 蛋糕 、 寿 面 等 。 通 过 本 系统 ， 还 可 对 客户 行为 进行 深入 分 析 ， 包 括 客户 价值 分 析 、 新 客户 分 析 与 发 展 ， 并 根据 其 价值 情况 提供 给 管理 者 ， 为 企业 提供 决策 支持 。 


(2) 前 厅 管 理 系统 


该 系统 通过 掌上 电脑 无 线 点 菜 方式 ， 改 变 了 传统 “饭店 点 菜 、 下 单 、 结 账 一 支 笔 、 一 张 纸 ， 服 务 员 来 回 跑 的 局 面 ”， 人 快速 完成 点 菜 过 程 。 通 过 厨房 自动 送 达 信息 ， 服 务 员 的 写 菜 速 度 加 快 不 需要 再 通过 
手写 ， 同 时 传 菜 部 也 轻松 不 少 ， 莱 单 会 通过 电脑 自动 打印 出 来 ， 差 错 率 降低 ， 也 不 存在 厨房 人 员 看 不 懂 服 务 员 字 迹 而 搞 错 的 问题 。 


(3) 后 厨 管理 系统 


言 息 化 技术 可 实现 后 厨 与 前 厅 沟 通 无 障碍 ， 客 人 菜单 瞬间 传 到 厨房 。 服 务 员 只 需 点 击 掌上 电脑 的 发 送 键 ， 客 人 的 菜单 即 被 传送 到 收银 管理 系统 中 ， 由 系统 的 电脑 发 出 指令 ， 设 在 厨房 等 处 的 打印 机 立即 
打印 出 相应 的 菜单 ， 厨 师 按 单 做 菜 。 与 此 同时 ， 收 银 台 也 打印 出 一 张 同样 的 菜单 放 在 客人 桌 上 ， 以 备 客人 查询 以 及 作 结 账 凭据 ， 使 客人 明明 白白 消费 。 


(4) 财务 管理 系统 


该 系统 完成 销售 统计 、 销 售 分 析 、 财 务 审计 ， 实 现 对 日 常 经 莒 销售 的 管理 。 通 过 报表 ， 企 业 管理 者 很 容易 掌握 前 台 的 销售 情况 ， 从 而 达到 对 财务 的 控制 。 通 过 表格 和 图 形 可 以 显示 餐厅 的 销售 情况 ， 如 
菜品 排行 榜 、 日 客户 流量 、 日 销售 收入 分 析 等 ; 统计 每 天 的 出 菜 情况 ， 可 以 了 解 哪 些 是 清 销 菜 ， 哪 些 是 畅销 菜 ， 从 而 了 解 顾 客 的 品位 ， 有 针对 性 地 制订 出 一 套 既 适合 餐饮 企业 发 展 又 能 迎合 顾客 品位 的 菜肴 
体系 和 定价 策略 。 


(5) 物资 管理 系统 


该 系统 主要 完成 对 物资 的 进 销 存 ， 实 际 上 就 是 一 套 融 采购 管理 〈 入 库 、 供 应 商 管理 、 账 款 管理 ) 、 销 售 (通过 配 莱卡 与 前 台 销 售 联动 ) 、 盘 存 为 一 体 的 物流 管理 系统 。 对 于 连锁 企业 ， 还 涉及 统一 配送 


管理 等 。 


通过 以 上 信息 化 的 建设 ，T 餐 饮 已 经 积累 了 大 量 的 历史 数据 ， 有 没有 一 种 方法 可 帮助 企业 从 这 些 数据 中 洞察 商机 ， 提 取 价 值 ” 在 同 质 化 的 市 场 竞争 中 ， 怎 样 找到 一 些 市 场 以 前 并 不 人 存在 的 “ 捡 漏 ” 和 Rh 
缺 ”? 


1.2 ”从 餐饮 服务 到 数据 挖掘 
企业 经 营 最 大 的 目的 就 是 僵 利 ， 而 餐饮 业 企业 盈利 的 核心 就 是 其 菜品 和 顾客 ， 也 就 是 其 提供 的 产品 和 服务 对 象 。 企 业经 营 者 每 天 都 在 想 推出 什么 样 的 菜系 和 种 类 会 吸引 更 多 的 顾客 ， 究 竟 各 种 顾客 各 自 
的 喜好 是 什么 ， 在 不 同 的 时 段 是 不 是 有 不 同 的 菜品 畅销 ， 当 把 几 种 不 同 的 菜品 组 合 在 一 起 推出 时 是 不 是 能 够 得 到 更 好 的 效果 ， 未 来 一 段 时 间 菜 品 原材料 应 该 采购 多 少 .…… 


T 餐 饮 的 经 营 者 想 尽 快 地 解决 这 些 疑 问 ， 使 自己 的 企业 更 加 符合 现 有 顾客 的 口味 ， 吸 引 更 多 的 新 顾客 ， 又 能 根据 不 同 的 情况 和 环境 转换 自己 的 经 营 策 略 。T 餐 饮 在 经 营 过 程 中 ， 通 过 分 析 历 史 数 据 ， 总 结 
出 一 些 行 之 有 效 的 经 验 : 


在 点 餐 过 程 中 ， 由 有 经 验 的 服务 员 根 据 顾客 特点 进行 菜品 推荐 ， 一 方面 可 提高 菜品 的 销量 ， 另 外 一 方面 可 减少 客户 点 餐 的 时 间 和 频率 ， 提 高 用 户 体 验 ; 
考虑 节假日 、 气 候 和 竞争 对 手 等 影响 因素 ， 对 菜品 销量 进行 预测 ， 以 便 餐 饮 企 业 提 前 准备 原材料 ; 


综合 
分 类 统计 出 好 评 菜 和 差 评 菜 ， 为 促销 活动 和 新 菜品 推出 提供 支持 ; 
含 。 如 果 有 一 套 工 具 或 系统 ， 能 


) ae 


. 根据 菜品 历史 销售 情况 
定期 对 菜品 销售 情况 进行 统计 ， 

根据 就 餐 频 率 和 金额 对 顾客 的 就 餐 行 为 进行 评分 ， 第 选 出 优质 客户 ， 定 期 回访 和 送 去 关怀 。 

上 述 措施 的 实施 都 依赖 于 企业 已 有 业务 系统 中 保存 的 数据 ， 但 是 目前 从 这 些 数据 中 获得 有 关 产 品 和 客户 的 特点 以 及 能 够 产生 价值 的 规律 更 多 依赖 于 管理 人 员 的 个 人 经 3 

企业 的 决策 水 平和 竞争 能 力 。 这 种 从 数据 中 “淘金 ”， 从 大 量 数 据 (包括 文本 ) 中 挖掘 出 隐 含 的 、 未 知 的 、 对 决策 有 潜在 价值 的 

提供 预测 性 决策 支持 的 方法 、 工 具 和 过 程 ， 这 就 是 数据 挖掘 ， 它 是 利用 各 种 分 析 工 具 在 大 量 数 据 中 寻找 其 规律 和 发 现 模 型 与 数据 之 间 关 


Er 


从 业务 数据 中 自动 或 半自动 地 发 现 相关 的 知识 和 解决 方案 ， 这 将 极 大 地 提高 
关系 、 模 式 和 趋势 ， 并 用 这 些 知识 和 规则 建立 用 于 决策 支持 的 模型 ， 
ZEEN. 


系 的 过 程 ， 是 统计 学 、 数 据 库 技术 和 人 工 智能 技术 的 综合 
这 种 分 析 方 法 可 避免 “人 治 ” 的 随意 性 ， 避 免 企业 管理 仪 依赖 个 人 领导 力 的 风险 和 不 确定 性 ， 实 现 精 细 化 营销 与 经 营 


1.3 ”数据 挖掘 的 基本 任务 
数据 挖掘 的 基本 任务 包括 利用 分 类 与 预测 、 聚 类 分 析 、 关 联 规则 、 时 序 模 式 、 偏 差 检 测 、 智 能 推荐 等 方法 ， 帮 助 企业 提取 数据 中 蕴含 的 商业 价值 ， 提 高 企业 的 竞争 力 。 
对 餐饮 企业 而 言 ， 数 据 挖掘 的 基本 任务 是 从 餐饮 企业 采集 各 类 菜品 销量 、 成 本 单价 、 会 员 消费 、 促 销 活动 等 内 部 数据 ， 以 及 天 气 、 节 假日 、 竞 争 对 手 以 及 周边 商业 氛围 等 外 部 数据 ; 之 后 利用 数据 分 析 
手段 ， 实 现 菜品 智能 推荐 、 促 销 效果 分 析 、 客 户 价 值 分 析 、 新 店 选 点 优化 、 热 销 /滞销 菜品 分 析 和 销量 趋势 预测 ;最 后 将 这 些 分 析 结 果 推 送 给 餐饮 企业 管理 者 及 有 关 服 务 人 员 ， 为 餐饮 企业 降低 运营 成 本 ， 增 
现 精 准 营 销 ， 策 划 促 销 活动 等 提供 智能 服务 支持 。 


加 僵 利 能 力 ， 实 现下 


1.4 SCID eRe 
从 本 节 开 始 ， 将 以 餐饮 行业 的 数据 挖掘 应 用 为 例 来 详细 介绍 数据 挖 所 的 建 模 过 程 ， 如 图 1-1 所 示 。 
1.4.1 定义 挖掘 目标 
提供 菜品 智能 推荐 、 新 店 


景 知识 ， 弄 清 用 户 需求 。 要 想 充 分 发 挥 数据 挖 所 的 价值 ， 必 须要 对 目标 有 一 个 清晰 明确 的 定义 ， 即 决定 到 底 想 二 什么 
餐饮 、 前 厅 、 | 菜品 智能 推荐 、 新 店 选 址 优化 、 
客户 及 外 部 数据 收集 “客户 价值 分 析 和 销量 预测 等 模型 构建 ” 选 址 优化 、 销 量 预测 等 服务 
ay 


针对 具体 的 数据 挖掘 应 用 需求 ， 首 先 要 明确 本 次 的 挖掘 目标 是 什么 ”系统 完成 后 能 达到 什么 样 的 效果 ”因此 必须 分 析 应 用 领域 ， 包 括 应 用 中 的 各 种 知识 和 应 用 目标 ， 了 解 相关 领域 的 有 关 情 况 ， 熟 悉 背 


原材料 采购 、 菜 品 销量 


后 厨 等 部 门 访谈 
SSS 


模型 发 布 
* 模型 部 署 


模型 评价 
*。 设 定 评价 标准 

* 多 模型 对 比 * 模型 重 构 
* 模 型 优化 


构建 模型 

* 模式 发 现 
* 构建 模型 
*， 验 证 模型 


数据 整理 

* 数据 探索 
* 数据 清洗 
* 数据 变换 


目标 定义 数据 采集 

© 任务 理解 *， 建 模 抽 样 

* 指标 确定 * 质量 把 控 
* 实时 采集 


图 1-1 餐饮 行业 数据 挖 据 建 模 过 程 


将 有 限 的 资源 投放 到 最 有 价值 的 客户 身上 ， 


针对 和 餐饮 


ws 
Iz! 


行业 的 数据 挖掘 应 用 ， 可 定义 如 下 挖掘 目标 : 
实现 动态 菜品 智能 推荐 ， 帮 助 顾 客 快 速 发 现 自己 感 兴趣 的 菜品 ， 同 时 确保 推荐 给 顾客 的 菜品 也 是 餐饮 企业 所 期 望 的 ， 实 现 餐 饮 消费 者 和 餐饮 企业 的 双赢 ; 


了 解 不 同 客户 的 贡献 度 和 消费 特征 ， 分 析 哪 些 客户 是 最 有 价值 的 ， 哪 些 是 最 需要 关注 的 ， 对 不 同 价 值 的 客户 采取 不 同 的 营销 策略 ， 


. 对 餐饮 客户 进行 细 分 ， 


实现 精准 化 营销 ; 


响 因 素 ， 对 菜品 销量 进行 趋势 预测 ， 方 便 餐 饮 企业 准备 原材料 ; 


基于 菜品 历史 销售 情况 ， 综 合 考虑 节假日 、 气 候 和 竞争 对 手 等 影 
* 基于 餐饮 大 数据 ， 优 化 新 店 选 址 ， 并 对 新 店 所 在 位 置 周围 的 潜在 顾客 口味 偏好 进行 分 析 ， 以 便 及 时 进行 菜 式 调整 。 


1.4.2 数据 取样 


在 明确 了 需要 进行 数据 挖掘 的 目标 后 ， 接 下 来 就 需要 从 业务 系统 中 抽取 出 一 个 与 挖掘 目标 相关 的 样本 数据 子 集 。 抽 取 数 据 的 标准 ， 一 是 相关 性 ， 二 是 可 靠 性 ， 三 是 有 效 性 ， 而 不 是 动用 全 部 企业 数据 。 
通过 数据 样本 的 精 选 ， 不 仅 能 减少 数据 处 理 量 ， 节 省 系统 资源 ， 而 且 使 我 们 想 要 寻找 的 规律 性 更 加 突显 出 来 。 


进行 数据 取样 ， 一 定 要 严 把 质量 关 。 在 任何 时 候 都 不 能 忽视 数据 的 质量 ， 即 使 是 从 一 个 数据 仓库 中 进行 数据 取样 ， 也 不 要 忘记 检查 其 质量 如 何 。 因 为 数据 挖掘 是 要 探索 企业 运作 的 内 在 规律 性 ， 原 始 数 
据 有 误 ， 就 很 难 从 中 探索 规律 性 。 若 真 的 从 中 还 探索 出 来 了 什么 “规律 性 ”， 再 依 此 去 指导 工作 ， 则 很 可 能 会 造成 误导 。 若 从 正在 运行 的 系统 中 进行 数据 取样 ， 更 要 注意 数据 的 完整 性 和 有 效 性 。 


衡量 取样 数据 质量 的 标准 包括 : 

- 资料 完整 无 缺 ， 各 类 指标 项 齐全 。 

| 数据 准确 无 误 ， 反 映 的 都 是 正常 (而 不 是 异常 ) 状态 下 的 水 平 。 

对 获取 的 数据 ， 可 再 从 中 作 抽 样 操作 。 抽 样 的 方式 是 多 种 多 样 的 ， 常 见 的 有 以 下 几 种 方式 。 

- 随机 抽样 : 在 采用 随机 抽样 方式 时 ， 数 据 集 中 的 每 一 组 观测 值 都 有 相同 的 被 抽样 的 概率 。 如 按 10% 的 比例 对 一 个 数据 集 进 行 随机 抽样 ， 则 每 一 组 观测 值 都 有 10% 的 机 会 被 取 到 。 
- 等 距 抽 样 : 如 按 5% 的 比例 对 一 个 有 100 组 观测 值 的 数据 集 进行 等 距 抽 样 ， 则 100/5=20， 等 距 抽样 方式 是 取 第 20、40、60、80 和 第 100 这 5 组 观测 值 。 


* 分 层 抽样 : 在 这 种 抽样 操作 时 ， 首 先 将 样本 总 体 分 成 若干 层次 (或 者 说 分 成 若干 个 子 集 ) 。 在 每 个 层次 中 的 观测 值 都 具有 相同 的 被 选用 的 概率 ， 但 对 不 同 的 层次 可 设 定 不 同 的 概率 。 这 样 的 抽样 结 
通常 具有 更 好 的 代表 性 ， 进 而 使 模型 具有 更 好 的 拟 合 精度 。 


“ 从 起 始 顺 序 抽样 : 这 种 抽样 方式 是 从 输入 数据 集 的 起 始 处 开始 抽样 。 抽 样 的 数量 可 以 给 定 一 个 百分比 ， 或 者 直接 给 定 选 取 观 测 值 的 组 数 。 


* 分 类 抽样 : 在 前 述 几 种 抽样 方式 中 ， 并 不 考虑 抽取 样本 的 具体 取 值 。 分 类 抽样 则 依据 某 种 属性 的 取 值 来 选择 数据 子 集 ， 如 按 客户 名 称 分 类 、 按 地 址 区 域 分 类 等 。 分 类 抽样 的 选取 方式 就 是 前 面 所 述 的 
几 种 方式 ， 只 是 抽样 以 类 为 单位 。 


基于 前 面 定 义 的 餐饮 行业 的 挖掘 目标 ， 需 从 客户 关系 管理 系统 、 前 厅 管 理 系统 、 后 厨 管理 系统 、 财 务 管理 系统 和 物资 管理 系统 抽取 用 于 建 模 和 分 析 的 餐饮 数据 ， 主 要 包括 : 


“ 餐饮 企业 信息 : 名 称 、 位 置 、 规 模 、 联 系 方式 ， 以 及 部 门 、 人 员 、 角 色 等 ; 


. 餐饮 企业 菜品 信息 : 菜品 名 称 、 菜 品 单价 、 菜 品 成 本 、 所 属 部 门 等 ; 

. 菜品 销量 数据 : 菜品 名 称 、 销 售 日 期 、 销 售 金额 、 销 售 份 数 ; 

- 原材料 供应 商 资料 及 商品 数据 : 供应 商 姓名 、 联 系 方式 、 商 品名 称 ， 以 及 客户 评价 信息 ; 
. 促销 活动 数据 : 促销 日 期 、 促 销 内 容 、 促 销 描述 ; 


- 外 部 数据 ， 如 天 气 、 节 假日 、 竞 争 对 手 以 及 周边 商业 和 氛围 等 数据 。 


1.4.3 ”数据 探索 


前 面 所 叙述 的 数据 取样 ， 多 少 是 带 着 人 们 对 如 何 实现 数据 挖掘 目的 的 先 验 认 识 进行 操作 的 。 当 我 们 拿 到 了 一 个 样本 数据 集 后 ， 它 是 否 达到 我 们 原来 设想 的 要 求 ; 其 中 有 没有 什么 明显 的 规律 和 趋势 ; 有 
没有 出 现 从 未 设想 过 的 数据 状态 ;属性 之 间 有 什么 相关 性 ; 它们 可 区 分 成 怎样 一 些 类 别 .……， 这 都 是 要 首先 探索 的 内 容 。 


了 


对 所 抽取 的 样本 数据 进行 探索 、 审 核 和 必要 的 加 工 处 理 ， 是 保证 最 终 的 挖掘 模型 的 质量 所 必需 的 。 可 以 说 ， 挖 掘 模型 的 质量 不 会 超过 抽取 样本 的 质量 。 数 据 探索 和 预 处 理 的 目的 是 为 了 保证 样本 数据 的 
质量 ， 从 而 为 保证 模型 质量 打下 基础 。 


常用 的 数据 探索 方法 主要 包括 两 方面 : 数据 质量 分 析 ; 数据 特征 分 析 。 


1. 数 据 质量 分 析 
数据 质量 分 析 是 数据 挖掘 中 数据 准备 过 程 的 重要 一 环 ， 是 数据 预 处 理 的 前 提 ， 也 是 数据 挖掘 分 析 结 论 有 效 性 和 准确 性 的 基础 ， 没 有 可 信 的 数据 ， 数 据 挖掘 构建 的 模型 将 是 空中 楼 阁 。 


数据 质量 分 析 的 主要 任务 是 检查 原始 数据 中 是 否 存在 脏 数 据 ， 脏 数据 一 般 是 指 不 符合 要 求 ， 以 及 不 能 直接 进行 相应 分 析 的 数据 。 在 常见 的 数据 挖掘 工作 中 ， 脏 数据 包括 : 缺失 值 、 异 常 值 、 不 一 致 的 
值 、 重 复数 据 及 含有 特殊 符号 (GU Y. *) 的 数据 。 


(1) 缺失 值 分 析 


数据 的 缺失 主要 包括 记录 的 缺失 和 记录 中 某 个 字段 信息 的 缺失 ， 两 者 都 会 造成 分 析 结 果 的 不 准确 。 使 用 简单 的 统计 分 析 ， 可 以 得 到 含有 缺失 值 的 属性 的 个 数 ， 以 及 每 个 属性 的 未 缺失 数 、 缺 失 数 与 缺失 
率 等 。 缺 失 值 的 处 理 ， 从 总 体 上 来 说 分 为 删除 存在 缺失 值 的 记录 、 对 可 能 值 进行 插 补 和 不 处 理 三 种 情况 。 


(2) 异常 值 分 析 


常 值 分 析 是 检验 数据 是 否 有 录入 错误 以 及 含有 不 合 常理 的 数据 。 忽 视 异 常 值 的 存在 是 十 分 危险 的 ， 不 加 剔除 地 把 异常 值 包括 进 数 据 的 计算 分 析 过 程 中 ， 会 给 结果 带 来 不 良 影响 ;重视 异常 值 的 出 现 ， 
分 析 其 产生 的 原因 ， 常 常 成 为 发 现 问题 进而 改进 决策 的 契机 。 异 常 值 是 指 样本 中 的 个 别 值 ， 其 数值 明显 偏离 其 余 的 观测 值 。 异 常 值 也 称 为 离 群 点 ， 异 常 值 的 分 析 也 称 为 离 群 点 分 析 。 


图 1-2 箱 形 图 检测 异常 值 


箱 型 图 提供 了 识别 异常 值 的 一 个 标准 : 异常 值 通常 被 定义 为 小 于 QL-1.51QR 或 大 于 QU+1.5IQR 的 值 。QL 称 为 下 四 分 位 数 ， 表 示 全 部 观察 值 中 有 1/4 的 数据 取 值 比 它 小 ; QU 称 为 上 四 分 位 数 ， 表 示 全 部 观 
察 值 中 有 四 分 之 一 的 数据 取 值 比 它 大 ; 1QR 称 为 四 分 位 数 间距 ， 是 上 四 分 位 数 QU 与 下 四 分 位 数 Q| 之 差 ， 其 间 包 含 了 全 部 观察 值 的 一 半 。 


箱 型 图 依据 实际 数据 绘制 ， 没 有 对 数据 作 任 何 限制 性 要 求 (如 服从 某 种 特定 的 分 布 形式 ) , 是 真实 直观 地 表现 数据 分 布 的 本 来 面 狗 ;， 另 一 方面 ， 箱 型 图 判断 异常 值 的 标准 以 四 分 位 数 和 四 分 位 距 为 
基础 ， 四 分 位 数 具 有 一 定 的 鲁 棒 性 : 多 达 25% 的 数据 可 以 变 得 任意 远 而 不 会 很 大 地 扰动 四 分 位 数 ， 所 以 异常 值 不 能 对 这 个 标准 施加 影响 。 由 此 可 见 ， 箱 形 图 识别 异常 值 的 结果 比较 客观 ， 在 识别 异常 值 方面 
有 一 定 的 优越 性 ， 见 图 1-2。 


(3) 数据 一 致 性 分 析 


数据 不 一 致 性 是 指数 据 的 矛盾 性 、 不 相 容 性 。 直 接 对 不 一 致 的 数据 进行 挖掘 ， 可 能 会 产生 与 实际 相 违背 的 挖掘 结果 。 在 数据 挖掘 过 程 中 ， 不 一 致 数据 的 产生 主要 发 生 在 数据 集成 的 过 程 中 ， 可 能 是 由 于 
被 挖掘 数据 是 来 自 于 从 不 同 的 数据 源 、 对 重复 存放 的 数据 未 能 进行 一 致 性 更 新 造成 的 。 例 如 ， 两 张 表 中 都 存储 了 用 户 的 电话 号 码 ， 但 在 用 户 的 电话 号 码 发 生 改 变 时 只 更 新 了 一 张 表 中 的 数据 ， 那 么 这 两 张 表 
中 就 有 了 不 一 致 的 数据 。 


2 .数据 特征 分 析 
对 数据 进行 质量 分 析 以 后 ， 可 通过 绘制 图 表 、 计 算 某 些 特征 量 等 手段 进行 数据 的 特征 分 析 。 数 据 特征 分 析 主 要 包括 : 分 布 分 析 、 对 比分 析 、 统 计量 分 析 、 周 期 性 分 析 、 贡 献 度 分 析 和 相关 性 分 析 。 
(1) 分 布 分 析 
分 布 分 析 能 揭示 数据 的 分 布 特征 和 分 布 类 型 。 对 定量 数据 而 言 ， 欲 了 解 其 分 布 形式 是 对 称 的 还 是 非 对 称 的、 发 现 某 些 特大 或 特 小 的 可 疑 值 ， 可 做 出 频率 分 布 表 、 绘 制 频率 分 布 直方 图 、 绘 制 荃 叶 图 进行 


直观 地 分 析 ; 对 于 定性 分 类 数据 ， 可 用 饼 图 和 条 形 图 直观 地 显示 分 布 情况 。 比 如 ， 针 对 餐饮 系统 的 销售 额 、 销 量 可 以 画 出 类 似 下 面 的 图 ， 如 图 1-3~ 图 1-5 所 示 。 
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图 1-3 ”销售 额 的 频率 分 布 直方 图 


图 1-5 菜品 的 销售 量 分 布 (条 形 图 ) 
(2) 对 比分 析 


对 比分 析 是 指 把 两 个 相互 联系 的 指标 进行 比较 ， 从 数量 上 展示 和 说 明 研 究 对 象 规模 的 大 小 ， 水 平 的 高 低 ， 速 度 的 快慢 ， 以 及 各 种 关系 是 否 协调 。 特 别 适 用 于 指标 间 的 横 纵 向 比较 、 时 间 序 列 的 比较 分 
析 。 在 对 比分 析 中 ， 选 择 合适 的 对 比 标准 是 十 分 关键 的 步骤 ， 选 择 得 合适 ， 才 能 做 出 客观 的 评价 。 


比如 ， 针 对 餐饮 系统 中 的 菜品 的 销售 数据 ， 从 时 间 的 维度 上 分 析 ， 可 以 看 到 甜品 部 A、 海 鲜 部 B、 素 菜 部 C 三 个 部 门 之 间 的 销售 金额 随时 间 的 变化 趋势 ， 了 解 在 此 期 间 哪个 部 门 的 销售 金额 较 高 ， 趋 势 比 
较 平稳 ， 如 图 1-6 所 示 ; 也 可 以 从 单一 部 门 (如 海鲜 部 ) 做 分 析 ， 了 解 各 月 份 的 销售 对 比 情况 ， 如 图 1- 7 所 示 。 
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图 1-6 ”部 门 之 间 销 售 金额 的 比较 
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图 1-7 ”海鲜 部 各 年 份 之 间 销 售 金额 的 比较 


从 总 体 来 看 ， 三 个 部 门 的 销售 金额 星 递减 趋势 ，A 部 门 和 C 部 门 的 递减 趋势 比较 平稳 ;，B 部 门 的 销售 金额 下 降 的 趋势 比较 明显 ， 可 以 进一步 分 析 造 成 这 种 现象 的 业务 原因 ， 可 能 是 原材料 不 足 造成 的 。 
(3) 统计 量 分 析 


用 统计 指标 对 定量 数据 进行 统计 描述 ， 常 从 集中 趋势 和 离 中 趋势 两 个 方面 进行 分 析 。 平 均 水 平 的 指标 是 对 个 体 集中 趋势 的 度量 ,使 用 最 广泛 的 是 均值 和 中 位 数 ;反映 变异 程度 的 指标 则 是 对 个 体 离开 平 
均 水 平 的 度量 ,使 用 较 广 泛 的 是 标准 差 (sz) 、 四 分 位 间距 。 


(4) 周期 性 分 析 


周期 性 分 析 是 探索 某 个 变量 是 否 随 着 时 间 变 化 而 呈现 出 某 种 周期 变化 趋势 。 时 间 尺 度 相对 较 长 的 周期 性 趋势 有 年 度 周期 性 趋势 、 季 节 性 周期 趋势 ， 相 对 较 短 的 有 月 度 周期 性 趋势 、 周 度 周 期 性 趋势 ， 甚 
至 更 短 的 天 、 小 时 周期 性 趋势 。 


例如 ， 要 对 某 单位 用 电量 进行 预测 ， 可 以 先 分 析 该 用 电 单 位 日 用 电量 的 时 序 图 ， 来 直观 地 估计 其 用 电量 变化 趋势 。 


图 1-8 是 某 用 电 单 位 A 在 2014 年 9 月 日 用 电量 的 时 序 图 ; 图 1-9 是 用 电 单 位 A 在 2013 年 9 月 日 用 电量 的 时 序 图 。 
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图 1-8 2014 年 9 月 日 用 电量 时 序 图 


总 体 来 看 ， 用 电 单位 A 的 2014 年 9 月 日 用 电量 呈现 出 周期 性 ， 以 一 周 为 周期 ， 因 为 周 六 周 日 不 上 班 ， 所 以 周末 用 电量 较 低 。 工 作 日 和 非 工 作 日 的 用 电量 比较 平稳 ， 没 有 太 大 的 波动 。 而 2013 年 9 月 日 用 电 
量 总 体 呈 现 出 递减 的 趋势 ， 同 样 周末 的 用 电量 是 最 低 的 。 


(5) 贡献 度 分 析 


贡献 度 分 析 又 称 帕 累 托 分 析 ， 它 的 原理 是 帕 累 托 法 则 (又 称 20/80 定 律 ) 。 同 样 的 投入 放 在 不 同 的 地 方 会 产生 不 同 的 效益 。 比 如 ， 对 一 个 公司 来 讲 ，80% 的 利润 常常 来 自 于 20% 最 畅销 的 产品 ， 而 其 他 
80% 的 产品 只 产生 了 20% 的 利润 。 


就 餐饮 企业 来 讲 ， 应 用 贡献 度 分 析 可 以 重点 改善 某 菜 系 盈 利 最 高 的 前 80% 的 菜品 ， 或 者 重点 发 展 综合 影响 最 高 的 80% 的 部 门 。 这 种 结果 可 以 通过 帕 囚 托 图 直观 地 呈现 出 来 。 图 1-10 是 海鲜 系列 的 10 个 菜 
品 A1~A10 某 个 月 的 盈利 额 (已 按照 从 大 到 小 排序 ) 。 
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(6) 相关 性 分 析 
分 析 连 续 变量 之 间 线 性 相关 程度 的 强 弱 ， 并 用 适当 的 统计 指标 表示 出 来 的 过 程 称 为 相关 分 析 。 


判断 两 个 变量 是 否 具 有 线性 相关 关系 的 最 直观 的 方法 是 直接 绘制 散 点 图 。 需 要 同时 考察 多 个 变量 间 的 相关 关系 时 ， 一 一 绘制 它们 间 的 简单 散 点 图 会 十 分 有 麻烦。 此 时 可 利用 散 点 图 矩阵 来 同时 绘制 各 变量 
间 的 散 点 图 ， 从 而 快速 发 现 多 个 变量 间 的 主要 相关 性 ， 这 在 进行 多 元 线性 回归 时 显得 尤为 重要 。 为 了 更 加 准确 地 描述 变量 之 间 的 线性 相关 程度 ， 可 以 通过 计算 相关 系数 来 进行 相关 分 析 。 在 二 元 变量 的 相关 
分 析 过 程 中 比较 常用 的 有 Pearson 相 关系 数 、Spearman 秩 相关 系数 和 判定 系数 。 


1.4.4 数据 预 处 理 


当 采 样 数据 维度 过 大 时 ， 如 何 进行 降 维 处 理 、 缺 失 值 处 理 等 都 是 数据 预 处 理 要 解决 的 问题 。 


由 于 采样 数据 中 常常 包含 许多 含有 噪音 、 不 完整 、 甚 至 不 一 致 的 数据 ， 对 数据 挖掘 所 涉及 的 数据 对 象 必须 进行 预 处 理 。 那 么 如 何 对 数据 进行 预 处 理 以 改善 数据 质量 ， 并 最 终 达到 完善 最 终 的 数据 挖掘 结 
果 的 目的 呢 ? 


常用 的 数据 预 处 理 主要 包括 : 数据 清洗 、 数 据 集成 、 数 据 变换 、 数 据 规约 等 。 

1 数据 清洗 
数据 清洗 主要 是 删除 原始 数据 集中 的 无 关 数 据 、 重 复数 据 ， 平 滑 噪 音 数据 ， 筛 选 掉 与 挖掘 主题 无 关 的 数据 ， 处 理 缺 失 值 、 异 常 值 等 。 
(1) 缺失 值 处 理 


处 理 缺 失 值 的 方法 可 分 为 三 类 : 删除 记录 、 数 据 插 补 和 不 处 理 。 如 果 通 过 简单 的 删除 小 部 分 记录 达到 既定 的 目标 ， 那 么 删除 含有 缺失 值 的 记录 这 种 方法 是 最 有 效 的 。 然 而 ， 这 种 方法 却 有 很 大 的 局 限 
性 。 它 是 以 减少 历史 数据 来 换取 数据 的 完备 ， 会 造成 资源 的 大 量 浪费 ， 丢 弃 了 大 量 隐藏 在 这 些 记录 中 的 信息 。 尤 其 在 数据 集 本 来 就 包含 很 少 记录 的 情况 下 ， 删 除 少量 记录 就 可 能 会 严重 影响 到 分 析 结 果 的 客 
观 性 和 正确 性 。 所 以 ， 很 多 情况 下 ， 原 始 数据 集中 的 缺失 值 需要 使 用 算法 进行 揪 补 ， 典 型 的 数值 缺失 值 插 补 算法 有 拉 格 朗 日 插值 和 牛顿 插值 法 。 不 过 ,一 些 模型 可 以 将 缺失 值 视 作 一 种 特殊 的 取 值 ， 人 允许 直 
接 在 含有 缺失 值 的 数据 上 进行 建 模 。 


(2) 异常 值 处 理 

异常 值 处 理 将 含有 异常 值 的 记录 直接 删除 这 种 方法 简单 易 行 ， 但 缺点 也 很 明显 ， 在 观测 值 很 少 的 情况 下 ， 这 种 删除 会 造成 样本 量 不 足 ， 可 能 会 改变 变量 的 原 有 分 布 ， 从 而 造成 分 析 结 果 的 不 准确 。 视 为 
缺失 值 处 理 的 好 处 是 可 以 利用 现 有 变量 的 信息 ， 对 异常 值 (RAE) 进行 填补 。 很 多 情况 下 ， 要 先 分 析 异 常 值 出 现 的 可 能 原因 ， 表 判断 异常 值 是 否 应 该 舍弃 ， 如 果 是 正确 的 数据 ， 可 以 直接 在 具有 异常 值 的 
数据 集 上 进行 挖掘 建 模 。 
2. 数 据 集成 

数据 挖掘 需要 的 数据 往往 分 布 在 不 同 的 数据 源 中 ， 数 据 集成 就 是 将 多 个 数据 源 合 并 存放 在 一 个 一 致 的 数据 存储 (如 数据 仓库 ) 中 的 过 程 。 在 数据 集成 时 ， 来 自 多 个 数据 源 的 现实 世界 实体 的 表达 形式 是 
不 一 样 的 ， 有 可 能 不 匹配 ， 要 考虑 实体 识别 问题 和 属性 元 余 问 题 ， 从 而 将 源 数据 在 最 低层 上 加 以 转换 、 提 炼 和 集成 。 
3. 数 据 变换 

数据 变换 主要 是 对 数据 进行 规范 化 处 理 ， 将 数据 转换 成 “适当 的 ”形式 ， 以 适用 于 挖掘 任务 及 算法 的 需要 。 常 用 的 数据 变换 方法 有 : 简单 函数 变换 、 规 范 化 、 连 续 属 性 离散 化 、 属 性 构造 、 小 波 变 换 。 

(1) 简单 冰 数 变换 


。 简 单 的 函数 变换 常用 来 将 不 具有 正 态 分 布 的 数据 变换 成 具有 正 态 分 布 的 数据 ; 在 时 间 序 列 分 析 中 ， 


简单 函数 变换 是 对 原始 数据 进行 某 些 数 学 函数 变换 ， 常 用 的 包括 平方 、 开 方 、 取 对 数 、 差 分 运算 等 
数 变换 可 能 更 有 必要 ， 比 如 ， 个 人 年 收入 的 取 值 范围 为 10000 元 到 10 亿 元 ， 这 是 一 个 很 大 的 区 间 ， 使 用 对 


有 时 简单 的 对 数 变换 或 者 差分 运算 就 可 以 将 非 平 稳 序 列 转换 成 平稳 序列 。 在 数据 挖掘 中 ， 简 单 的 函数 
数 变 换 对 其 进行 压缩 是 党 用 的 一 种 变换 处 理 。 


(2) 规范 化 


数据 标准 化 ( 归 一 化 ) 处 理 是 数据 挖掘 的 一 项 基础 工作 。 不 同 评价 指标 往往 具有 不 同 的 量 纲 和 量 纲 单位 ， 数 值 间 的 差别 可 能 很 大 ， 不 进行 处 理 可 能 会 影响 到 数据 分 析 的 结果 。 为 了 消除 指标 之 间 的 量 纲 
和 取 值 范围 差异 的 影响 ， 需 要 进行 标准 化 处 理 ， 将 数据 按照 比例 进行 缩放 ， 使 之 落 入 一 个 特定 的 区 域 ， 便 于 进行 综合 分 析 。 如 将 工资 收入 属性 值 映 射 到 [-1, 1] 或 者 [0，1] 内 。 常 用 的 规范 化 方法 有 : 
最 小 -最 大 规范 化 、 零 均值 规范 化 、 小 数 定 标 规范 化 。 


(3) 连续 属性 离散 化 


一 些 数据 挖掘 算法 ， 特 别 是 某 些 分 类 算法 (如 ID3 算 法 、Apriori 算 法 等 ) ， 要 求 数据 是 离散 属性 形式 。 这 样 ， 常 常 需要 将 连续 属性 变换 成 离散 属性 ， 即 连续 属性 离散 化 。 连 续 属 性 的 离散 化 就 是 在 数据 
的 取 值 范围 内 设 定 若干 个 离散 的 划分 点 ， 将 取 值 范围 划分 为 一 些 离散 化 的 区 间 ， 最 后 用 不 同 的 符号 或 整数 值 代表 落 在 每 个 子 区 间 中 的 数据 值 。 所 以 ， 离 散 化 涉及 两 个 子 任务 : 确定 分 类 数 以 及 如 何 将 连续 属 
性 值 映射 到 这 些 分 类 值 。 常 用 的 连续 属性 离散 化 方法 有 : 等 宽 法 、 等 频 法 、 (一 维 ) 聚 类 。 


(4) 属性 构造 
在 数据 挖掘 的 过 程 中 ， 为 了 帮助 提取 更 有 用 的 信息 、 挖 掘 更 深层 次 的 模式 ， 提 高 挖掘 结果 的 精度 ， 需 要 利用 已 有 的 属性 集 构造 出 新 的 属性 ， 并 加 入 现 有 的 属性 集合 中 。 
(5) 小 波 变 换 


小 波 变换 是 一 种 新 型 的 数据 分 析 工 具 ， 是 近年 来 兴起 的 信号 分 析 手 段 。 小 波 分 析 的 理论 和 方法 在 信号 处 理 、 图 像 处 理 、 语 音 处 理 、 模 式 识 别 、 量 子 物理 等 领域 得 到 越 来 越 广泛 的 应 用 ， 它 被 认为 是 近年 
来 在 工具 及 方法 上 的 重大 突破 。 小 波 变 换 具 有 多 分 辩 率 的 特点 ， 在 时 域 和 频 域 都 具有 表征 信号 局 部 特征 的 能 力 ， 通 过 伸缩 和 平移 等 运算 过 程 对 信号 进行 多 尺度 聚焦 分 析 ， 提 供 了 一 种 非 平稳 信号 的 时 频 分 析 
手段 ， 可 以 由 粗 及 细 地 逐步 观察 信号 ， 从 中 提取 有 用 信息 。 


4. 数 据 规约 


在 大 数据 集 上 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 的 时 间 ， 数 据 规 约 产生 更 小 的 但 保持 原 数据 完整 性 的 新 数据 集 。 在 规约 后 的 数据 集 上 进行 分 析 和 挖掘 将 更 有 效率 。 数 据 规 约 可 以 降低 无 效 、 错 误 数 
据 对 建 模 的 影响 ， 提 高 建 模 的 准确 性 ; 缩减 数据 挖掘 所 需 的 时 间 ; 降低 人 存储 数据 的 成 本 。 


数据 规约 主要 包括 : 属性 规约 和 数值 规约 。 


(1) 属性 规约 


属性 规约 通过 属性 合并 创建 新 属性 维 数 ， 或 者 直接 通过 删除 不 相关 的 属性 (AE) 来 减少 数据 维 数 ， 从 而 提高 数据 挖掘 的 效率 、 降 低 计 算 成 本 。 属 性 规约 的 目标 是 寻找 出 最 小 的 属性 子 集 并 确保 新 数据 子 
集 的 概率 分 布 尽 可 能 接近 原来 数据 集 的 概率 分 布 。 


(2) 数值 规约 
数值 规约 通过 选择 替代 的 、 较 小 的 数据 来 减少 数据 量 ， 包 括 有 参数 方法 和 无 参数 方法 两 类 。 有 参数 方法 是 使 用 一 个 模型 来 评估 数据 ， 只 需 存放 参数 ， 而 不 需要 存放 实际 数据 ， 例 如 ， 回 归 (线性 回归 和 
多 元 回归 ) 和 对 数 线性 模型 (近似 离散 属性 集中 的 多 维 概率 分 布 ) 。 无 参数 方法 就 需要 存放 实际 数据 ， 例 如 直方 图 、 聚 类 、 抽 样 (采样 ) 。 


1.4.5 ”挖掘 建 模 


样本 抽取 完成 并 经 预 处 理 后 ， 接 下 来 要 考虑 的 问题 是 : 本 次 建 模 属于 数据 挖掘 应 用 中 的 哪 类 问题 (分 类 、 聚 类 、 关 联 规则 、 时 序 模式 或 者 智能 推荐 ) ”选用 哪 种 算法 进行 模型 构建 ? 


这 一 步 是 数据 挖掘 工作 的 核心 环节 。 针 对 餐饮 行业 的 数据 挖掘 应 用 ， 挖 掘 建 模 主 要 包括 基于 关联 规则 算法 的 动态 菜品 智能 推荐 、 基 于 聚 类 算法 的 餐饮 客户 价值 分 析 、 基 于 分 类 与 预测 算法 的 菜品 销量 预 
测 、 基 于 整体 优化 的 新 店 选 址 。 


以 菜品 销量 预测 为 例 ， 模 型 构建 是 基于 菜品 历史 销量 ， 综 合 考虑 节假日 、 气 候 和 竞争 对 手 等 采样 数据 轨 人 迹 的 概括 ， 它 反映 的 是 采样 数据 内 部 结构 的 一 般 特 征 ， 并 与 该 采样 数据 的 具体 结构 基本 吻合 。 模 
型 的 具体 化 就 是 菜品 销量 预测 公式 ， 公 式 可 以 产生 与 观察 值 有 相似 结构 的 输出 ， 这 就 是 预测 值 。 


挖掘 建 模 部 分 具体 见 第 6 章 。 
1.4.6 ”模型 评价 


从 上 面 的 建 模 过 程 中 会 得 出 一 系列 的 分 析 结 果 ， 模 型 评价 的 目的 之 一 就 是 从 这 些 模型 中 自动 找 出 一 个 最 好 的 模型 出 来 ， 另 外 就 是 要 根据 业务 对 模型 进行 解释 和 应 用 。 


对 分 类 与 预测 模型 和 聚 类 分 析 模 型 的 评价 方法 是 不 同 的 。 分 类 与 预测 模型 对 训练 集 进 行 预测 而 得 出 的 准确 率 并 不 能 很 好 地 反映 预测 模型 未 来 的 性 能 ， 为 了 有 效 判 断 一 个 预测 模型 的 性 能 表现 ， 需 要 一 组 
没有 参与 预测 模型 建立 的 数据 集 ， 并 在 该 数据 集 上 评价 预测 模型 的 准确 率 ， 这 组 独立 的 数据 集 叫 测试 集 。 模 型 预测 效果 评价 ， 通 常用 相对 绝对 误差 、 平 均 绝 对 误差 、 根 均 方 差 、 相 对 平方 根 误差 等 指标 来 衡 
量 。 聚 类 分 析 仪 根据 样本 数据 本 身 将 样本 分 组 。 其 目标 是 ， 组 内 的 对 象 相互 之 间 是 相似 的 (相关 的 ) ， 而 不 同 组 中 的 对 象 是 不 同 的 (不 相关 的 ) 。 组 内 的 相似 性 越 大 ， 组 间 差 别 越 大 ， 聚 类 效果 就 越 好 。 


1.5 ”餐饮 服务 中 的 大 数据 应 用 


随 着 餐饮 企业 规模 不 断 增 大 ， 餐 饮 企业 的 数据 也 在 不 断 增长 。 一 个 大 的 餐饮 企业 可 能 有 很 多 分 店 ， 各 个 分 店 的 数据 综合 起 来 就 形成 “大 数据 ”， 但是， 如 何 针对 这 些 “ 大 数据 ”进行 应 用 分 析 ， 得 到 有 
价值 的 信息 ? 


餐饮 企业 如 果 可 以 预测 销售 额 ， 那 么 餐厅 就 能 在 销售 的 淡季 适当 调整 生产 活动 ， 降 低 运 营 支 出 ; 提前 部 署 营 销 策略 ， 盘 活 淡季 资源 。 未 雨 绸 缪 ， 方 能 做 到 有 备 无 患 。 餐 饮 企业 针 对 大 数据 做 销售 额 预 
测 ， 不 仅 可 以 考虑 各 种 情况 ， 比 如 ， 地 理 位 置 、 价 格 、 特 色 、 环 境 舒 适度 、 服 务 质 量 等， 综合 了 各 种 情况 后 的 大 数据 ， 可 以 使 得 模型 的 预测 准确 度 更 加 精准 。 


餐饮 企业 的 大 数据 精准 营销 就 是 在 完善 客户 资料 的 前 提 下 ， 针 对 客户 在 餐饮 企业 的 各 种 消费 的 数据 进行 分 析 ， 得 到 关于 某 个 / 群 客户 的 消费 行为 特点 ， 进 行 精 准 营销 ， 培 养 客户 的 忠诚 度 ， 进 而 可 以 提高 


se 
-~ 
Mo 


企业 


sat 


餐饮 企业 的 大 数据 选 址 就 是 结合 餐饮 企业 各 个 分 店 的 各 种 数据 ， 综 合 分 析 商 业 圈 的 各 种 因素 ， 比 如 该 地 区 的 经 济 状况 、 文 化 环境 、 同 行业 竞争 、 地 点 特征 、 街 道 交 通 ， 等 等 。 在 综合 考虑 这 些 因 素 的 前 
提 下 ， 分 析 各 个 分 店 的 竞争 力 、 经 济 效益 ， 从 而 分 析 得 出 餐饮 企业 的 最 佳 地 址 。 


1.6 JW 


一 


本 章 从 一 个 知名 餐饮 企业 经 营 过 程 中 人 存在 的 困惑 出 发 ， 引 出 数据 挖掘 的 概念 、 基 本 任务 、 建 模 过程 。 针 对 建 模 过 程 ， 简 要 分 析 了 定义 挖掘 目标 、 数 据 取 样 、 数 据 探 索 、 数 据 预 处 理 以 及 挖掘 建 模 的 各 个 
算法 概述 和 模型 评价 。 最 后 ， 针 对 餐饮 企业 规模 的 日 益 扩大 ， 企 业 数据 的 巨 幅 增 长 ， 引 出 了 餐饮 服务 中 的 大 数据 应 用 。 


如 何 帮助 企业 从 数据 中 洞察 商机 ， 提 取 价 值 ， 这 是 现 阶段 几乎 所 有 企业 都 关心 的 问题 。 通 过 发 生 在 身边 案例 ， 由 浅 入 深 引 出 深奥 的 数据 挖掘 理论 ， 让 读者 在 不 知 不 觉 中 感悟 到 数据 挖掘 的 非凡 魅力 ! 


第 2 章 ”Hadoop 基 础 


大 数据 是 指 无 法 在 一 定时 间 内 用 常规 软件 工具 对 其 内 容 进行 抓 取 、 管 理 和 处 理 的 数据 集合 。 大 数据 技术 ， 是 指 从 各 种 各 样 类 型 的 数据 中 ， 快 速 获 得 有 价值 信息 的 能 力 。 适 用 于 大 数据 的 技术 ， 包 括 大 规 
模 并 行 处 理 (MPP) 数据库， 数据 挖掘 ， 分 布 式 文件 系统 ， 分 布 式 数 据 库 ， 云 计算 平台 ， 互 联网 和 可 扩展 的 存储 系统 。 


在 维克托 : 迈 尔 - 舍 恩 伯 格 及 肯 尼 斯 : 库 克 耶 编写 的 《大 数据 时 代 》 中 大 数据 指 不 用 随机 分 析 法 (抽样 调查 ) 这 样 的 捷径 ， 而 采用 所 有 数据 进行 分 析 处 理 。 大 数据 的 主要 特点 为 数据 量 大 (Volume) ， 数 据 
类 别 复杂 (Variety) ， 数 据 处 理 速度 快 (Velocity) 和 数据 真实 性 高 (Veracity) ， 合 起 来 被 称 为 4V。 


在 处 理 大 数据 上 ，Hadoop 已 经 成 为 事实 上 的 标准 。IBM、Oracle、SAP、 甚 至 Microsoft 等 几乎 所 有 的 大 型 软件 提供 商都 采用 了 Hadoop。 


2.1 概述 


2.1.1 Hadoop 简 介 


Hadoop 是 Apache 软 件 基金 会 旗下 的 一 个 开源 分 布 式 计算 平台 。Hadoop 以 分 布 式 文件 系统 HDFS (Hadoop Distributed File System) 和 MapReduce (Google MapReduce 的 开源 实现 ) 为 核心 ， 


为 用 户 提供 了 系统 底层 细节 透明 的 分 布 式 基础 架构 。 分 布 式 文件 系统 HDFs 的 高 容错 性 、 高 伸缩 性 等 优点 允许 用 户 将 Hadoop 部 署 在 低廉 的 硬件 上 ， 形 成 分 布 式 文件 系统 ; MapReduce 分 布 式 编程 模型 允许 


用 户 在 不 了 解 分 布 式 系统 底层 细节 的 情况 下 开发 并 行 应 用 程序 。 所 以 用 户 可 以 利用 Hadoop 轻 松 地 组 织 计 算 机 资源 ， 简 便 、 快 速 地 搭建 分 布 式 计算 平台 ， 并 且 可 以 充分 利用 集群 的 计算 和 存储 能 力 ， 完 成 海 
量 数 据 的 处 理 。 


Apache Hadoop 目 前 版 本 (2.X 版 ) 含有 以 下 模块 : Hadoop 通 用 模块 ， 支 持 其 他 Hadoop 模 块 的 通用 工具 集 ; Hadoop 分 布 式 文件 系统 (HDFS) , 


支持 对 应 用 数据 高 吞吐 量 访问 的 分 布 式 文件 系统 ; 
Hadoop YARN ， 用 于 作业 调度 和 集群 资源 管理 的 框架 ; Hadoop MapReduce， 基 于 YARN 的 大 数据 并 行 处 理 系统 。 


Hadoop 目 前 除了 社区 版 ,还 有 众多 厂商 的 发 行 版 本 。 各 个 厂商 发 布 的 版 本 有 一 些 差异 ， 现 将 各 个 主流 的 发 行 版 本 介绍 如 下 : 


: Cloudera: 最 成 型 的 发 行 版 本 ， 拥 有 最 多 的 部 署 案例 ; 提供 强大 的 部 署 、 管 理 和 监控 工具 。Cloudera 开 发 并 贡献 了 可 实时 处 理 大 数据 的 Impala 项 目 。 


: Hortonworks: 100% 开 源 的 Apache Hadoop 唯 一 提供 商 。Hortonworks 是 第 一 家 使 用 了 Apache HCatalog 的 元 数据 服务 特性 的 提供 商 。 并 且 ， 它 们 的 Stinger 极 大 地 优化 了 Hive 项 目 。Hortonworks 为 入 门 提供 
了 一 个 非常 好 的 ， 易 于 使 用 的 沙 盒 。Hortonworks 开 发 了 很 多 增强 特性 并 提交 至 核心 主干 ， 这 使 得 Apache Hadoop 能 够 在 包括 Windows Servetr 和 Windows Azute 在 内 的 Mictosft Windows 平 台 上 本 地 运行 。 


: MapR: 与 竞争 者 相 比 ， 它 使 用 了 一 些 不 同 的 概念 我 们 可 以 使 用 本 地 UNIX 命 令 来 代替 Hadoop 命 
令 。 除 此 之 外 ，MapR 还 凭借 诸如 快照 、 镜 像 或 有 状态 的 故障 恢复 之 类 的 高 可 用 性 特性 来 与 其 他 竞争 者 相 区 别 。 该 公司 也 领导 着 Apache Diill 项 目 ， 本 项 目 是 Google 的 Dtemel 的 开源 项 目的 重新 实现 ， 目 的 是 在 
Hadoop 数 据 上 执行 类 似 SQL 的 查询 以 提供 实时 处 理 。 


， 特 别 是 为 了 获取 更 好 的 性 能 和 易 用 性 而 支持 本 地 UNIX 文 件 系统 而 不 是 HDFS (使 用 非 开源 的 组 件 ) 。 


: Amazon Elastic Map Reduce (EMR) : 区 别 于 其 他 提供 商 的 是 ， 这 是 一 个 托管 的 解决 方案 ， 其 运行 在 由 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amzon Simple Strorage Service (Amzon S3) 组 成 


的 网 络 规 模 的 基础 设施 之 上 。 除 了 Amazon 的 发 行 版 本 之 外 ， 你 也 可 以 在 EMR 上 使 用 MapR， 


临时 集群 是 主要 的 使 用 情形 。 如 果 你 需要 一 次 性 的 或 不 常见 的 大 数据 处 理 ，EMR 可 能 会 为 你 节省 大 笔 开 支 。 然 
而 ， 这 也 存在 不 利之 处 。 其 只 包含 了 Hadoop 生 态 系统 中 Pig 和 Hive 项 目 ， 在 默认 情 


况 下 不 包含 其 他 很 多 项 目 。 并 且 ，EMR 是 高 度 优化 成 与 S3 中 的 数据 一 起 工作 的 ， 这 种 方式 会 有 较 高 的 延 时 并 且 不 会 定位 于 你 


的 计算 节点 上 的 数据 。 所 以 处 于 EMR 上 的 文件 IO 相 比 于 你 自己 的 Hadoop 集 群 或 你 私有 EC2 集 群 来 说 会 慢 很 多 ， 并 有 更 大 的 延 时 。 
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Hadoop 生 态 系统 主要 包括 : Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari， 每 个 项 目的 简介 如 下 : 


: Hive: 用 于 Hadoop 的 一 个 数据 仓库 系统 ， 它 提供 了 类 似 于 SQL 的 查询 语言 ， 通 过 使 用 该 语言 ， 可 以 方便 地 进行 数据 汇总 ， 特 定 查 询 以 及 分 析 存 放 在 Hadoop 兼 容 文 件 系 统 中 的 大 数据 。 


: Hbase: 一 种 分 布 的 、 可 伸缩 的 、 大 数据 存储 库 ， 支 持 随机 、 实 时 读 / 写 访问 。 

Pig: 分 析 大 数据 集 的 一 个 平台 ， 该 平台 由 一 种 表达 数据 分 析 程序 的 高 级 语言 和 对 这 些 程序 进行 评估 的 基础 设施 一 起 组 成 。 
. Sqoop: 为 高 效 传输 批量 数据 而 设计 的 一 种 工具 ， 其 用 于 Apache Hadoop 和 结构 化 数据 存储 库 如 关系 数据 库 之 间 的 数据 传输 。 
‘Flume: 一 种 分 布 式 的 、 可 靠 的 、 可 用 的 服务 ， 其 用 于 高 效 搜集 、 江 总、 移动 大 量 日 志 数 据 。 

` ZooKeeper: 一 种 集中 服务 ， 其 用 于 维护 配置 信息 ， 命 名 ， 提 供 分 布 式 同步 ， 以 及 提供 分 组 服务 。 


: Mahout: 一 种 基于 Hadoop 的 机 器 学 习 和 数据 挖掘 的 分 布 式 计 算 框 架 算 法 集 ， 实 现 了 多 种 MapReduce 模 式 的 数据 挖 据 工 法 。 


. Spark: 一 个 开源 的 数据 分 析 集群 计算 框架 


架 ， 最 初 由 加 州 大 学 伯克利 分 校 AMPLab 开 发 ， 建 立 于 HDFS 之 上 。Spatrk 与 Hadoop 一 样 ， 用 于 构建 大 规模 、 低 延 时 的 数据 分 析 应 用 。Spark 采 用 Scalai 
使 用 Scala 作 为 应 用 框架 


ESRI, 


.Stotm: 一 个 分 布 式 的 、 容 错 的 实时 计算 系统 ， 由 BackType 开 发 ， 后 被 Twittet 收 购 。Stotm 属 于 流 处 理 平 台 


， 多 用 于 实时 计算 并 更 新 数据 库 。Storm 也 可 被 用 于 “连续 计算 ” 
对 数据 流 做 连续 查询 ， 在 计算 时 就 将 结果 以 流 的 形式 输出 给 用 户 。 它 还 可 用 于 


# (continuous computation) ， 


“分 布 式 RPC”， 以 并 行 的 方式 运行 大 型 的 运算 。 


Shark: 即 Hive on Spark， 一 个 专 为 Spark 打 造 的 大 规模 数据 仓库 系统 ， 兼 容 Apache Hive。 无 需 修改 现 有 的 数据 或 者 查询 ， 


就 可 以 用 100 倍 的 速度 执行 Hive QL。Shatk 支 持 Hive 查 询 语 言 、 元 存储 、 序 列 化 
格式 及 自 定义 函数 ， 与 现 有 Hive 部 署 无 颖 集成 ， 是 一 个 更 快 、 更 强大 的 替代 方案 。 


: Phoenix: 一 个 构建 在 Apache HBase 之 上 的 一 个 SQL 中 间 层 ， 完 全 使 用 Java 编 写 ， 提 供 了 一 个 客户 端 可 能 入 的 JDBC 驱 动 。Phoenix 查 询 引 擎 会 将 SQL 查询 转换 为 一 个 或 多 个 HBase scan， 并 编排 执行 以 生成 


标准 的 JDBC 结 果 集 。 直 接 使 用 HBase API、 协 同 处 理 器 与 自 定 义 过 滤器 ， 对 于 简单 查询 来 说 ， 其 性 能 量 级 是 毫秒 ， 对 于 百 万 级 别 的 行 数 来 说 ， 其 性 能 量 级 是 秒 。 


Tez: 一 个 基于 Hadoop YARN 之 上 的 DAG (有 向 无 环 图 ，Directed Acyclic Graph) 计算 框架 


架 。 它 把 Map/Reduce 过 程 拆 分 成 若干 个 子 过 程 ， 同 时 可 以 把 多 个 Map/Reduce 任 务 组 合成 一 个 较 大 的 DAG 任 务 
减少 了 Map/Reduce 之 间 的 文件 存储 。 同 时 合理 组 合 其 子 过 程 ， 减 少 任 务 的 运行 时 间 。 


Ambati: 一 个 供应 、 管 理 和 监视 Apache Hadoop 集 群 的 开源 框架 ， 它 提供 一 个 直观 的 操作 工具 和 一 个 健壮 的 Hadoop API， 可 以 隐藏 复杂 的 Hadoop 操 作 ， 使 集群 操作 大 大 简化 。 
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使 用 表 2-1 中 的 软件 版 本 进行 配置 。 


表 2-1 软件 版 本 列表 


操作 系统 操作 系统 版 本 使 用 CentOS 6. 5 亦 可 
虚拟 机 VMware 9.0 
Hadoop 使 用 2. X 的 版 本 亦 可 


上 面 的 软件 版 本 准备 好 后 ， 按 照 下 面 的 步骤 进行 配置 。 


1. 配 置 VYMware 网 络 


在 VMware 主 界面 ， 单 击 “ 编 辑 ” 一 “虚拟 网 络 编辑 ”菜单 进入 虚拟 网 卡 参数 设置 界面 ( 见 图 2-1) 


。 选 择 VMnet8 条 目 ， 单 击 “NAT 设 置 ” 按钮 后 可 以 看 到 VMWare Workstation 为 NAT 连 接 的 虚拟 
机 设 定 的 默认 网 关 (此 处 为 192.168.222.2) ,以 及 子 网 掩 码 (此 处 为 255.255.255.0) ， 如 图 2-2 所 示 。 


BH 类 型 外 部 连接 
VMneti 公主 机 ..， - 
VMnet8 NAT 模式 NAT 模式 


vMnet 信息 
OPES OS elm Bee) eee) 


BMD: | | a 


(V NAT 模式 (与 虚拟 机 共享 主机 的 瑟 HEC QNO 
O 公主 机 模式 (在 专用 网 络 内 连接 虚拟 机 )(t) 


图 2-1 虚拟 网 络 编辑 器 界面 


于 以 种 为 单位 MD: |30 


图 2-2 NAT 设 置 界面 
2. 准 备 机 器 


通过 VMware 新 建 一 台 CentOs 6.4 虚 拟 机 ， 操 作 系 统 安装 完成 后 ， 使 用 root 用 户 登 录 ， 添 加 一 个 新 用 户 hadoop。 设 置 hadoop 用 户 的 密码 并 授予 hadoop 用 户 sudo 权 限 。 


[root@localhost 
[root@localhost 
[root@localhost 


]$useradd hadoop 
]$passwd hadoop 

]$chmod utw /etc/sudoers 
] 

] 


[root@localhost ~]S$vim /etc/sudoers 


# 在 foot ALL=(ALL) ALL 下 添加 hadoop ALL=(ALL) ALL 
[root@localhost -]$chmod u-w /etc/sudoers 


3. 设 置 静态 IP 


VMware 默认 使 用 动态 的 |P， 但 是 由 于 Hadoop 集 群 是 使 用 机 器 名 进行 定位 的 ， 在 /etc/hosts 中 配置 了 机 器 名 和 IP 的 映射 ， 如 果 1P 不 断 变化 ， 则 需要 不 断 修 改 配置 文件 ， 所 以 这 里 需要 把 IP 设 置 为 静态 ， 
方便 后 面 的 操作 。 


1) 修改 /etc/sysconfig/network-scripts/ifcfg-eth0。 


[root@localhost ~]$vim /etc/sysconfig/network-scripts/ifcfg-eth0 
# 修改 内 容 如 下 : 

DEVICE-ethO 

BOOTPROTO=static 

IPADDR-192.168.222.131 

NETMASK-255.255.255.0 

GATEWAY-192.168.222.2 

# HWADDR=00:0C:29:C3:34:BFH# 这 个 需要 根据 自己 的 机 器 进行 设置 
ONBOOT=yes 

TYPE=Ethernet 

PV6INIT-no 

DNS1=192.168.222.2 


2) 修改 /etc/sysconfig/network。 


[root@localhost ~]Svim /etc/sysconfig/network 
NETWORKING=yes 

NETWORKING | PV6=no 
HOSTNAME-localhost.localdomain 
GATEWAY-192.168.222.2 


3) 修改 DNS 信息 。 


[root@localhost ~]$vim/etc/resolv.conf 
nameserver 192.168.222.2 

search bogon 

# 使 配置 信息 立即 生效 

[root@localhost ~]$source /etc/resolv.conf 
# 重 启 网 络 服务 


[root@localhost ~]Sservice network restart 


4) 关闭 防火 墙 并 修改 其 启动 策略 为 不 开机 启动 。 


[root@localhost -]$service iptables stop 
# 防 火 墙 不 开机 启动 
[root@localhost ~]$chkconfig iptables of 


4. 安 装 JDK 


1) 使 用 yum search jdk 在 线 查 找 jdk 列 表 ， 任 意 选 择 一 个 版 本 进行 安装 ， 这 里 安装 “java-1.7.0-openjdk-devel.x86 64” , 


[root@localhost 
[root@localhost 


^]$yum search jdk 
~]Syum install java-1.7.0-openjdk-devel.x86 64 -y 


Ct ct 


2) 配置 Java 环 境 变量 。 


# 查询 JDK 路 径 

[root@localhost ~]Swhereis java 

[root@localhost ~]$11 /usr/bin/java 

[root@localhost ~]$11 /etc/alternatives/java # 这 是 可 以 看 到 JDK 路 径 了 
# 修 改 配 置 文件 

[root@localhost ~]Svim /etc/profile 

HERE Jm 


export JAVA HOME-/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.75.x86 64 
export MAVEN HOME-/home/hadoop/local/opt/apache-maven-3.3.1  - 
export JRE HOME-$JAVA HOME/jre 
export PATH=$JAVA HOME/bin:$MAVEN HOME/bin:$PATH 
export CLASSPATH-.:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 
# 保 存 配置 后 使 用 source 命令 是 配置 立即 生效 
[root@localhost ~]Ssource /etc/profile 


3) 使 用 ava-version 命 令 查看 环境 变量 配置 是 否 成 功 。 


[root@localhost ~]$java -version 
OpenJDK Runtime Environment (rhel-2.5.4.0.e16 6-x86 64 u75-b13) 
OpenJDK 64-Bit Server VM (build 24.75-b04, mixed mode) 


至 此 ， 完 成 JDK 的 安装 和 配置 ， 接 下 来 使 用 VMware 克隆 两 台 机 器 ， 并 分 别 设置 静 态 |P 地 址 为 192.168.222.132，192.168.222.133， 如 图 2-3 和 图 2-4 所 示 。 


GEB 
@) 虚拟 机 中 的 当前 状态 (C) 
时 接 克 隆 将 创建 一 个 新 快照 。 


图 2-3 ”克隆 虚拟 机 向 导 1 


Ose ee 


JW f+ / etc/udev /rules.d/70-persistent-net.rules, 44 £X /etc/sysconfig/netwotk-sctipts/ifcfg-ethO, jEAFAR PEAXLBEAR— 41, EE AA. 


5. 配 置 ssh 免 登录 


图 2-4 ”克隆 虚拟 机 向 导 2 


完成 ， 启 动机 器 后 ， 会 出 现 没 有 网 络 设备 信息 ， 无 法 连接 网 络 的 情况 ， 解 决 方案 如 下 : 


1) 启动 三 台 机 器 ， 分 别 修改 机 器 名 为 master、slave1、slave2， 重 启 系统 。 


[root@localhost ~]Svim /etc/sysconfig/network 


# 修改 内 容 如 下 


NETWORKING=yes 
NETWORKING IPV6=no 


HOSTNAME-master 


2) 修改 maste 


# 内 容 如 下 


r 上 的 /etc/hosts。 


[hadoop@master ~]$sudo vim /etc/hosts 


992.168.222.131 master 
192.168.222.132 slavel 


192.168.222.133 slave2 


3) 将 hosts 文 件 复制 到 slave1 和 slave2。 


[hadoopémaster ~]Ssudo scp /etc/hosts root@slavel:/etc 
[hadoopémaster ~]Ssudo scp /etc/hosts root@slave2:/etc 


4) 在 master 机 器 上 使 用 hadoop 用 户 登 录 (确保 接 下 来 的 操作 都 是 通过 hadoop 用 户 执行 ) . HT $ ssh-keygen-t rsa 命 令 产 生 公 钥 。 


[hadoop@émaster ~]$ssh-keygen -t rsa 
Generating public/private rsa key pair. 


Dp 


Enter file in which to save the key (/home/hadoop/.ssh/id rsa): 


Ti 


Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 


Your identification has been saved in /home/hadoop/.ssh/id_rsa. 
Your public key has been saved in /home/hadoop/.ssh/id rsa.pub. 
The key fingerprint is: 


7o:75:98:eb:1 


Fd:13:ce:0f:c4:cf:2c:65:cc:73:70:53 hadoop@master 


The key's randomart image is: 
+--[ RSA 2048]----+ 
E| 


y 
In 


= 


5) 将 公 钥 复制 到 slave1 和 slave2。 


[hadoop@master ~]$ssh-copy-id -i -/.ssh/id rsa.pub slavel 
# 输入 hadoop@slavel 的 密码 
[hadoop@master ~]$ssh-copy-id -i -/.ssh/id rsa.pub slave2 
# 输入 hadoop@slave2 的 密码 


工 


. http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0l 
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6) 再 次 登录 ， 已 经 可 以 不 需要 密码 可 以 登录 slave1，slave2。 


[hadoopmaster -]$ssh slavel 
Last login: Wed Mar 25 14:40:41 2015 from master 
[hadoop@slavel ~]$ 


6. 安 装 Hadoop 


1) 在 Hadoop 官 网 网 站 ， 下 载 稳定 版 的 并 且 已 经 编译 好 的 二 进 制 包 ， 并 解压 缩 。 


[hadoopémaster ~]Swgethttp://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.0/ 
hadoop-2.6.0.tar.gz 
[hadoopémaster ~]Star -zxf hadoop-2.6.0.tar.gz -C ~/local/opt 
[hadoopémaster ~]Scd ~/local/opt/hadoop-2.6.0 


2) 设置 环境 变量 : 


[hadoopémaster ~]Svim ~/.bashrc 

export HADOOP PREFIX-S$HOME/local/opt/hadoop-2.6.0 

export HADOOP COMMON HOME-SHADOOP PREFIX 

export HADOOP HDFS HOME-S$HADOOP PREFIX 

export HADOOP MAPRED HOME=SHADOOP PREFIX 

export HADOOP YARN HOME=SHADOOP PREFIX 

export HADOOP CONF DIR-$HADOOP PREFIX/etc/hadoop 

export PATH=SPATH:SHADOOP PREFIX/bin:$HADOOP PREFIX/sbin 


3) 修改 配置 文件 (etc/hadoop/hadoop-env.sh) ， 添 加 下 面 的 命令 (这 里 需 


注意 JAVA_HOME 的 设置 需要 根据 自己 机 器 的 实际 情况 进 


AAL 


{IZ 


置 ) : 


export JAVA HOME-/usr/lib/jvm/java 


4) 修改 配置 文件 (etc/hadoop/core-site.xml) ， 内 容 如 下 : 


<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://master</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/hadoop/local/var/hadoop/tmp/hadoop-$ {user.name}</value> 
</property> 
</configuration> 


5) 修改 配置 文件 (etc/hadoop/hdfs-site.xml) , ARTF: 


<configuration> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>file:///home/hadoop/local/var/hadoop/hdfs/datanode</value> 
</property> 
<property> 
<name>dfs.namenode.name.dir</name> 
<value>file:///home/hadoop/local/var/hadoop/hdfs/namenode</value> 
</property> 
<property> 
<name>dfs.namenode. checkpoint .dir</name> 
<value>file:///home/hadoop/local/var/hadoop/hdfs/namesecondary</value> 
</property> 
<property> 
<name>dfs.replication</name> 
<value>2</value> 
</property> 
</configuration> 


6) 修改 配置 文件 (etc/hadoop/yarn-site.xml) ， 内 容 如 下 : 


<configuration> 

<property> 
<name>yarn .nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 

<property> 
«name»yarn.resourcemanager.hostnamec/name» 
<value>master</value> 

</property> 

</configuration> 


7) 修改 配置 文件 (etc/hadoop/mapred-site.xml) ， 内 容 如 下 : 


<configuration> 

<property> 
<name>mapreduce . framework .name</name> 
<value>yarn</value> 

</property> 

<property> 
«name»mapreduce.jobtracker.staging.root.dir«/name» 


<value>/user</value> 
</property> 
</configuration> 


8) 格式 化 HDFS: 


[hadoop@émaster ~]Shdfs namenode -format 


9) 启动 hadoop 集 群 ， 启 动 结束 后 使 用 ps 命令 列 出 守护 进程 验证 安装 是 否 成 功 。 


# 启 动 HDFS 


[hadoop@master -]$start-dfs.sh 
# 启 动 Yarn 


[hadoop@émaster ~]$start-yarn.sh 
f master 主 节点 : 

[hadoop@émaster ~]$jps 

3717 SecondaryNameNode 

3855 ResourceManager 

3539 NameNode 

3903 JobHistoryServer 

4169 Jps 

fslavelT & 

[hadoop@slavel ~]Sijps 

2969 Jps 
2683 DataNode 

2789 NodeManager 

2 节点 

@slave2 ~]$jps 
S 


2363 DataNode 
2470 NodeManager 


2.3 ”Hadoop 原 理 


2.3.1 Hadoop HDFS 原 理 


Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 通用 硬件 (commodity hardware) 上 的 分 布 式 文件 系统 。 它 和 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 ， 同 时 ， 它 和 其 他 的 分 布 式 文件 系统 的 区 别 
也 是 很 明显 的 。HDFS 是 一 个 高 度 容错 性 的 系统 ， 适 合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 数据 访问 ， 非 常 适合 大 规模 数据 集 上 的 应 用 。HDFS 放 宽 了 一 部 分 POSIX 约 束 ， 来 实现 流 式 读 取 文件 系 
统 数 据 的 目的 。HDFS 最 开始 是 作为 Apache Nutch 搜 索引 擎 项 目的 基础 架构 而 开发 的 ，HDFS 是 Apache Hadoop Core 项 目的 一 部 分 。 


HDFS 有 着 高 容错 性 (fault-tolerant) 的 特点 ， 并 且 设 计 用 来 部 署 在 低廉 的 (low-cost) 硬件 上 。 而 且 它 提供 高 吞吐 量 (high throughput) 来 访问 应 用 程序 的 数据 ， 适 合 那些 有 着 超大 数据 集 (large 
data set) 的 应 用 程序 。HDFS 放 宽 了 (relax) POSIX 的 要 求 (requirements) 这 样 可 以 实现 以 流 的 形式 访问 (streaming access) 文件 系统 中 的 数据 。 


HDFS 采 用 master/slave 架 构 。 一 个 HDFS 集 群 是 由 一 个 NameNode 和 一 定数 目的 DataNodes 组 成 。NameNode 是 一 个 中 心服 务 器 ， 负 责 管理 文件 系统 的 名 字 空 间 (namespace) 以 及 客户 端 对 文件 
的 访问 。 集 群 中 的 DataNode 一 般 是 一 个 节点 一 个 ， 负 责 管理 它 所 在 节点 上 的 存储 。HDFS 暴 露 了 文件 系统 的 名 字 空 间 ， 用 户 能 够 以 文件 的 形式 在 上 面 存储 数据 。 从 内 部 看 ， 一 个 文件 其 实 被 分 成 一 个 或 多 个 
数据 块 ， 这 些 块 存储 在 一 组 DataNode 上 。NameNode 执 行文 件 系 统 的 名 字 空 间 操作 ， 例 如 打开 、 关 闭 、 重 命名 文件 或 目录 。 它 也 负责 确定 数据 块 到 具体 DataNode 节 点 的 映射 。DataNode 负 责 处 理 文 件 
系统 客户 端的 读 写 请 求 。 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 复制 。 图 2-5 所 示 为 HDFS 的 架构 图 。 
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图 2-5 ”HDFS 架 构图 


HDFS 数 据 上 传 原理 可 以 参考 图 2-5 对 照 理解 ， 数 据 上 传 过 程 如 下 所 示 : 


1) Client 端 发 送 一 个 添加 文件 到 HDFS 的 请 求 给 NameNode; 
2) NameNode 告 诉 Client 端 如 何 来 分 发 数据 块 以 及 分 发 的 位 置 ; 
3) Client 端 把 数据 分 为 块 (block) ， 然 后 把 这 些 块 分 发 到 DataNode 中 ; 


4) DataNode 在 NameNode 的 指导 下 复制 这 些 块 ， 保 持 见 余 。 


2.3.2 Hadoop MapReduce 原 理 


Hadoop MapReduce 是 一 个 快速 、 高 效 、 简 单 用 于 编写 并 行 处 理 大 数据 程序 并 应 用 在 大 集群 上 的 编程 框架 。 其 前 身 是 Google 公 司 的 MapReduce。MapReduce 是 Google 公 司 的 核心 计算 模型 ， 它 将 

复杂 的 、 运 行 于 大 规模 集群 上 的 并 行 计算 过 程 高 度 地 抽象 到 了 两 个 函数 : Map 和 Reduce。 适 合用 MapReduce 来 处 理 的 数据 集 (或 任务 ) ， 需 要 满足 一 个 基本 要 求 : 待 处 理 的 数据 集 可 以 分 解 成 许多 小 的 数 

据 集 ， 而 且 每 一 个 小 数据 集 都 可 以 完全 并 行 地 进行 处 理 。 概 念 “Map” (映射 ) 和 “Reduce” ( 归 约 ) ， 以 及 它们 的 主要 思想 ， 都 是 从 函数 式 编 程 语言 里 借 来 的 ， 同 时 包含 了 从 矢量 编程 语言 里 借 来 的 特 
性 。Hadoop MapReduce 极 大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情况 下 ， 将 自己 的 程序 运行 在 分 布 式 系统 上 。 


一 个 MapReduce 作 业 (job) 通常 会 把 输入 的 数据 集 切 分 为 若干 独立 的 数据 块 ， 由 map 任 务 (task) 以 完全 并 行 的 方式 处 理 它们 。 框 架 会 对 map 的 输出 先进 行 排序 ， 然 后 把 结果 输入 给 reduce 任 务 。 通 
常 ， 作 业 的 输入 和 输出 都 会 被 存储 在 文件 系统 中 。 整 个 框架 负责 任务 的 调度 和 监控 ， 以 及 重新 执行 已 经 失败 的 任务 。 


通常 ，MapReduce 框 染 的 计算 节点 和 存储 节点 是 运行 在 一 组 相同 的 节点 上 的 ， 也 就 是 说 ， 运 行 MapReduce 框 架 和 运行 HDFS 文 件 系统 的 节点 通常 是 在 一 起 的 。 这 种 配置 允许 框 染 在 那些 已 经 存 好 数据 
的 节点 上 高 效 地 调度 任务 ， 这 可 以 使 整个 集群 的 网 络 带 宽 被 非常 高 效 地 利用 。 


MapReduce 框 架 包括 一 个 主 节点 (ResourceManager) 、 多 个 子 节点 (运行 NodeManager) 和 MRAppMaster (每 个 任务 一 个 ) 共同 组 成 。 应 用 程序 至 人 少 应 该 指明 输入 /输出 的 位 置 (路 径 ) ， 并 通 
过 实现 合适 的 接口 或 抽象 类 提供 map 和 reduce 逊 数 ， 再 加 上 其 他 作业 的 参数 ， 就 构成 了 作业 配置 (job configuration) 。Hadoop 的 job client 提 交 作 业 (jar 包 /可 执行 程序 等 ) 和 配置 信息 给 
ResourceManager， 后 者 负责 分 发 这 些 软件 和 配置 信息 给 slave、 调 度 任务 上 且 监控 它们 的 执行 ， 同 时 提供 状态 和 诊断 信息 给 job-client。 


虽然 Hadoop 框 架 是 用 Java 实 现 的 ， 但 MapReduce 应 用 程序 则 不 一 定 要 用 Java 来 写 ， 也 可 以 使 用 Ruby、Python、C++ 等 来 编写 
MapReduce 框 架 的 流程 如 图 2-6 所 示 。 

针对 上 面 的 流程 可 以 分 为 两 个 阶段 来 描述 。 

(1) Map 阶 段 

1) InputFormat 根 据 输 入 文件 产生 键 值 对 ， 并 传送 到 Mapper 类 的 map 函 数 中 ; 

2) map 输 出 键 值 对 到 一 个 没有 排序 的 缓冲 内 存 中 ; 

3) 当 缓 冲 内 存 达到 给 定 值 或 者 map 任 务 完成 ， 在 缓冲 内 存 中 的 键 值 对 就 会 被 排序 ， 然 后 输出 到 磁盘 中 的 溢出 文件 ; 

4) 如 果 有 多 个 溢出 文件 ， 那 么 就 会 整合 这 些 文件 到 一 个 文件 中 ， 且 是 排序 的 ; 


5) 这 些 排序 过 的 、 在 溢出 文件 中 的 键 值 对 会 等 待 Reducer 的 获取 。 
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图 2-6 ”MapReduce 框 架 数 据 流 
(2) Reduce 阶 段 
1) Reducer 获 取 Mapper 的 记录 ， 然 后 产生 另外 的 键 值 对 ， 最 后 输出 到 HDFS 中 ; 
2) shuffle: 相同 的 key 被 传送 到 同一 个 的 Reducer 中 ; 
3) 当 有 一 个 Mapper 完 成 后 ，Reducer 就 开始 获取 相关 数据 ， 所 有 的 溢出 文件 会 被 排序 到 一 个 内 存 缓冲 区 中 ; 


4) 当 内 存 缓 站 区 满 了 后 ， 就 会 产生 溢出 文件 到 本 地 磁盘 ; 


5) 当 Reducer 所 有 相关 的 数据 都 传输 完成 后 ， 所 有 溢出 文件 就 会 被 整合 和 排序 ; 
6) Reducer 中 的 reduce 方 法 针对 每 个 Key 调 用 一 次 ; 


7) Reducer 的 输出 到 HDFS。 


2.3.3 Hadoop YARN 原 理 


经 典 MapReduce 的 最 严重 的 限制 主要 关系 到 可 伸缩 性 、 资 源 利 用 和 对 与 MapReduce 不 同 的 工作 负载 的 支持 。 在 MapReduce 框 架 中 ， 作 业 执 行 受 两 种 类 型 的 进程 控制 : 一 个 称 为 JobTracker 的 主要 进 
程 ， 它 协调 在 集群 上 运行 的 所 有 作业 ， 分 配 要 在 TaskTracker 上 运行 的 map 和 reduce 任 务 。 另 一 个 就 是 许多 称 为 TaskTracker 的 下 级 进程 ， 它 们 运行 分 配 的 任务 并 定期 向 JobTracker 报 告 进 度 。 


这 时 ， 经 过 工程 师 们 的 努力 ， 诞 生 了 一 种 全 新 的 Hadoop 架 构 一 一 YARN (也 称 为 MRv2) 。YARN 称 为 下 一 代 Hadoop 计 算 平台 ， 主 要 包括 ResourceManager、ApplicationMaster、 
NodeManager， 其 中 ResourceManager 用 来 代 蔡 集群 管理 器 ，ApplicationMaster 代 蔡 一 个 专用 上 短暂 的 JobTracker，NodeManager 代 蔡 TaskTracker。 


MRv2 最 核心 的 思想 就 是 将 JobTracker 两 个 主要 的 功能 分 离 成 单独 的 组 件 ， 这 两 个 功能 是 资源 管理 和 任务 调度 /监控 。 新 的 资源 管理 器 全 局 管理 所 有 应 用 程序 计算 资源 的 分 配 ， 每 一 个 应 用 的 
ApplicationMaster 负 责 相应 的 调度 和 协调 。 一 个 应 用 程序 要 么 是 一 个 单独 的 传统 的 MapReduce 任 务 或 者 是 一 个 DAG (有 向 无 环 图 ) 任务 。ResourceManager 和 每 一 台 机 器 的 节点 管理 服务 
(NodeManger) 能 够 管理 用 户 在 那 台 机 器 上 的 进程 并 能 对 计算 进行 组 织 。 事 实 上 ， 每 一 个 应 用 的 ApplicationMaster 是 一 个 特定 的 框架 库 ， 它 和 ResourceManager 来 协调 资源 ， 和 NodeManager 协 同 工 
作 以 运行 和 监控 任务 。 


ResourceManager 有 两 个 重要 的 组 件 : Scheduler 和 ApplicationsManager。scheduler 负 责 分 配 资 源 给 每 个 正在 运行 的 应 用 ， 同 时 需要 注意 Scheduler 是 一 个 单一 的 分 配 资源 的 组 件 ， 不 负责 监控 或 
者 跟踪 任务 状态 的 任务 ， 而 且 它 不 保证 重启 失败 的 任务 。ApplicationsManager 注 意 负责 接受 任务 的 提交 和 执行 应 用 的 第 一 个 容器 ApplicationMaster 协 调 ， 同 时 提供 当 任 务 失败 时 重启 的 服务 。 如 图 2-7 所 
示 ， 客 户 端 提交 任务 到 ResourceManager 的 ApplicationsManager， 然 后 Scheduler 在 获得 了 集群 各 个 节点 的 资源 后 ， 为 每 个 应 用 启动 一 个 App Mastr (ApplicationMaster) ， 用 于 执行 任务 。 每 个 App 
Mastr 启 动 一 个 或 多 个 Container 用 于 实际 执行 任务 。 


MapReduce Status “一 一 
Job Submission 


Node Status 
Resource Request .....-..-» 


图 2-7 YARN 架 构图 


24 ”动手 实践 
按照 2.2 节 的 详细 配置 步骤 进行 操作 ， 部 署 完 成 后 即 可 进行 下 面 的 实验 。 
实践 一 : HDFS 命 令 


1) 新 建文 件 夹 。 


hadoop fs 


-mkdir /user 


hadoop fs -mkdir /user/root 


2) 查看 文件 夹 权 限 。 


# hadoop fs -ls -d /user/root 
drwxr-xr-x - root supergroupO0 2015-05-29 17:29 /user/root 


3) 上 传 文件 。 


复制 02- 上 机 实验 /ds.txt 并 通 


# hadoop fs -put ds.txt ds.txt 
# hadoop fs -ls -R /user/root 
-rw-r--r-- 3 root supergroup 9135 2015-05-29 19:07 /user/root/ds.txt 


过 xftp 上 传 到 客户 端 机 器 ， 运 行 下 面 的 命令 和 结果 对 照 。 


4) 查看 文件 内 容 。 


# hadoop 


5) 复制 /移动 /删除 文件 。 


fs -cat /user/root/ds.txt 

17.759065824032646,0.6708203932499373 
20.787886563063058,0.7071067811865472 
17.944905786933322,0.5852349955359809 


19:07 /user/roo 


t/ds. 


cxt 


19:30 /user/root/ds backup.tx 


t/ds backup.txt /user/root/ds backupl.txt 


19:07 /user/roo 


t/ds. 


txt 


19:30 /user/root/ds backupl.txt 


: Namenode trash 


# hadoop fs -cp /user/root/ds.txt /user/root/ds backup.txt 
# hadoop fs -ls /user/root 

Found 2 items 

-rw-r--r-- 3 root supergroup 9135 2015-05-29 |] 
-rw-r--r-- 3 root supergroup 9135 2015-05-29 |] 
# hadoop fs -mv /user/roo 

# hadoop fs -ls /user/root 

Found 2 items 

-rw-r--r-- 3 root supergroup 9135 2015-05-29 |] 
-rw-r--r-- 3 root supergroup 9135 2015-05-29 |] 
* hadoop fs -rm -r /user/root/ds backupl.txt 
15/05/29 19:32:51 INFO fs.TrashPolicyDefault 
val = 0 minutes, Emptier interval = 0 minutes. 
Deleted /user/root/ds backupl.txt 

# hadoop fs -1s /user/root 

Found 1 items 


-rw-r--r-- 3 root supergroup 9135 2015-05-29 19:07 /user/root/ds 


实践 二 : 


MapReduce 任 务 


configuration: Deletion inter- 


‘txt 


1) 复制 02- 上 机 实验 /ds.txt 并 通过 xftp 上 传 到 客户 端 机 器 /opt 目 录 下 。 


# hadoop f 
f hadoop | 


Found 1 it 


s -put /opt/ds. 


S -ls /user/root 


ems 


txt /user/root/ds.txt 


-rw-r--r-- 3 root supergroup 9135 2015-05-29 19:49 /user/root/ds.txt 


2) 复制 Hadoop 的 安装 目录 的 MapReduce Example 的 jar 包 到 /opt 目 录 下 。 


# cp /opt/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar /opt 
# 1s /opt/hadoop-mapreduce* 
/opt/hadoop-mapreduce-examples-2.6.0.jar 


3) 运行 单词 计数 MapReduce 任 务 。 


# hadoop jar /opt/hadoop-mapreduce-examples-2.6.0.jar wordcount /user/root/ds.txt /user/ 


root/ds ou 


15/05/29 20:23:00 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222. 
131:8032 
15/05/29 20:23:02 INFO input.FileInputFormat: Total input paths to process : 1 
15/05/29 20:23:02 INFO mapreduce.JobSubmitter: number of splits:1 
15/05/29 20:23:02 INFO mapreduce.JobSubmitter: Submitting tokens for job: job 1432825607351 0 
15/05/29 20:23:03 INFO impl.YarnClientImpl: Submitted application application 1432825607351 01 
15/05/29 20:23:03 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/ap- 
plication 1432825607351 0127/ 
15/05/29 20:23:03 INFO mapreduce.Job: Running job: job 1432825607351 0127 
15/05/29 20:23:15 INFO mapreduce.Job: Job job 1432825607351 0127 running in uber mode : false 
15/05/29 20:23:15 INFO mapreduce.Job:map 0$ reduce 0$ 
15/05/29 20:23:31 INFO mapreduce.Job:map 100% reduce 0% 
15/05/29 20:23:40 INFO mapreduce.Job:map 100% reduce 100% 
15/05/29 20:23:40 INFO mapreduce.Job: Job job 1432825607351 0127 completed successfully 
15/05/29 20:23:40 INFO mapreduce.Job: Counters: 49 
File System Counters 
FILE: Number of bytes read=10341 
FILE: Number of bytes written=232633 
FILE: Number of read operations=0 
FILE: Number of large read operations=0 
FILE: Number of write operations=0 
HDFS: Number of bytes read=9236 
HDFS: Number of bytes written=9375 
HDFS: Number of read operations=6 
HDFS: Number of large read operations=0 
HDFS: Number of write operations=2 
Job Counters 
Launched map tasks=1 
Launched reduce tasks=1 
Data-local map tasks=1 
Total time spent by all maps in occupied slots (ms)=12679 
Total time spent by all reduces in occupied slots (ms)=6972 
Total time spent by all map tasks (ms)=12679 
Total time spent by all reduce tasks (ms)=6972 
Total vcore-seconds taken by all map tasks=12679 
Total vcore-seconds taken by all reduce tasks=6972 
Total megabyte-seconds taken by all map tasks=12983296 
Total megabyte-seconds taken by all reduce tasks=7139328 
Map-Reduce Framework 


il. 


Map input records-240 


Map output records-240 

Map output bytes-9855 

Map output materialized bytes-10341 
Input split bytes-101 

Combine input records-240 

Combine output records-240 

Reduce input groups-240 

Reduce shuffle bytes-10341 

Reduce input records-240 

Reduce output records-240 


Spilled Records-480 


127 


27 


Shuffled Maps =1 
Failed Shuffles=0 
Merged Map outputs=1 
GC time elapsed (ms)=398 
CPU time spent (ms) =5330 
Physical memory (bytes) snapshot=321277952 
Virtual memory (bytes) snapshot=2337296384 
Total committed heap usage (bytes) =195235840 
Shuffle Errors 
BAD ID=0 
CONNECT ION=0 
O ERROR=0 
WRONG LENGTH=0 
WRONG MAP=0 
WRONG REDUCE=0 
File Input Format Counters 
Bytes Read=9135 
File Output Format Counters 
Bytes Written=9375 


4) 查看 任务 的 输出 。 


# hadoop fs -cat /user/root/ds out/part-r-00000 
16.75481160342442,0.5590169943749481 1 

17.759065824032646,0.67082039324993731 
17.944905786933322,0.58523499553598091 
18.619213022043585,0.50249378105604441 
18 .664436259885097,0.74330343736592461:::::: 


25 ie 


本 章 从 介绍 大 数据 基础 概念 讲 起 ， 引 入 了 Hadoop 大 数据 处 理 平台 ， 简 要 介绍 了 Hadoop 以 及 Hadoop 生 态 系统 。 接 着 ， 详 细 介 绍 了 使 用 VMware 虚拟 机 搭建 分 布 式 Hadoop 集 群 环境 的 步 又， 使 读者 可 
以 根据 搭建 步骤 一 步 步 来 搭建 自己 的 集群 ， 方 便 后 面 的 学 习 实 验 。 然 后 ， 介 绍 了 Hadoop 的 各 个 模块 ， 包 括 Hadoop HDFS 文 件 系 统 、Hadoop MapReduce 编 程 框架 、Hadoop YARN 资 源 管理 和 分 配器 的 
原理 。 最 后 ， 给 出 了 详细 设计 的 实验 ， 可 以 使 读者 在 了 解 原理 的 前 提 下 ， 动 手 实 践 ， 加 深 对 原理 的 认识 和 理解 。 


第 3 章 ”Hadoop 生 态 系统 : Hive 


3.1 概述 


3.1.1 Hivef&jr 


Hive 最 初 是 应 Facebook 每 天 产生 的 海量 新 兴 社 会 网 络 数据 进行 管理 和 机 器 学 习 的 需求 而 产生 和 发 展 的 ， 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 作 为 Hadoop 的 一 个 数据 仓库 工具 ，Hive 可 以 将 结构 
化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 简单 的 SQL 查询 功能 。 


Hive 作 为 构建 在 Hadoop 之 上 的 数据 仓库 ， 它 提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 提取 转化 加 载 (ETL) ， 这 是 一 种 可 以 人 存储、 查询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。Hive 定 义 了 简单 
的 类 SQL 查询 语言 ， 称 为 HQL， 它 允许 熟悉 SQL 的 用 户 查 询 数据 。 同 时 ， 该 语言 也 允许 熟悉 MapReduce 的 开发 者 开发 自 定义 的 Mapper 和 Reducer 来 处 理 内 建 的 Mapper 和 Reducer 无 法 完成 的 复杂 的 分 析 
工作 。 


Hive 没 有 专门 的 数据 格式 。Hive 可 以 很 好 地 工作 在 Thrift 之 上 ， 控 制 分 隔 符 ， 也 允许 用 户 指定 数据 格式 。 
Hive 具 有 以 下 特点 : 
. 支持 索引 ， 加 快 数据 查询 。 
“不同 的 存储 类 型 ， 如 纯 文本 文件 、HBase 中 的 文件 。 
- 将 元 数据 保存 在 关系 数据 库 中 ， 大 大 减少 了 在 查询 过 程 中 执行 语义 检查 的 时 间 。 
* 可 以 直接 使 用 存储 在 Hadoop 文 件 系 统 中 的 数据 。 
" 内 置 大 量 用 户 函 数 UDF 来 操作 时 间 、 字 符 串 和 其 他 的 数据 挖掘 工具 ， 支 持 用 户 扩 展 UDF 涵 数 来 完成 内 置 函 数 无 法 实现 的 操作 。 
类 SQL 的 查询 方式 ， 将 SQL 查 询 转 换 为 MapReduce 的 Job 在 Hadoop 集 群 上 执行 。 


Hive 构 建 在 基于 静态 批 处 理 的 Hadoop 之 上 ，Hadoop 通 常 都 有 较 高 的 延迟 并 且 在 作业 提交 和 调度 时 需要 大 量 的 开销 。 因 此 ，Hive 并 不 能 够 在 大 规模 数据 集 上 实现 低 延 迟 快速 的 查询 。 例 如 ，Hive 在 几 
百 MB 的 数据 集 上 执行 查询 一 般 有 分 钟 级 的 时 间 延 迟 。 因 此 ，Hive 并 不 适合 那些 需要 低 延 迟 的 应 用 ， 如 联机 事务 处 理 (OLTP) 。Hive 查 询 操作 过 程 严格 遵守 Hadoop MapReduce 的 作业 执行 模型 ，Hive 将 
用 户 的 HiveQL 语 句 通过 解释 器 转换 为 MapReduce 作 业 提 交 到 Hadoop 集 群 上 ，Hadoop 监 控 作 业 执 行 过 程 ， 然 后 返回 作业 执行 结果 给 用 户 。Hive 并 非 为 联机 事务 处 理 而 设计 ，Hive 并 不 提供 实时 的 查询 和 
基于 行 级 的 数据 更 新 操作 。Hive 的 最 佳 使 用 场合 是 大 数据 集 的 批 处 理 作 业 ， 如 网 络 日 志 分 析 。 


3.1.2 ”Hive 安 装 与 配置 


使 用 表 3-1 中 的 软件 版 本 进行 配置 。 


表 3-1 软件 版 本 列表 


软件 


TRE BE CentOS 6. 4 64bit 


虚拟 机 VMware 9. 0 


JDK L. 7 


上 面 的 软件 版 本 准备 好 后 ， 按 照 下 面 的 步骤 进行 配置 。 


1. 配 置 VYMware 虚 拟 机 


参考 第 2 章 的 配置 ， 配 置 好 虚拟 机 。 


这 里 在 机 器 slave2 上 安装 Hive。 


2. 下 载 并 配置 Hive 


备注 
操作 系统 版 本 使 用 CentOS 6. 5 gp uf 


H} Hadoop 2. X 的 版 本 


1) 在 Hive 的 官网 http://mirrors.cnnic.cn/apache/hive/ 下 载 Hive， 其 文件 为 : apache-hive-1.2.1-bin.tar.gz。 下 载 后 解压 到 slave2 机 器 中 。 


2) 在 slave2 机 器 进行 配置 即 可 。 配 置 文件 在 $ HIVE_HOME/conf 文 件 夹 中 。 复 制 hive-default.xml.template 文 件 到 hive-site.xml 文 件 ， 修 改 内 容 如 下 : 


<configuration> 
<property> 
«name»javax.jdo.option.ConnectionURL«/name» 
«value»jdbc:mysql://slave2:3306/hive?characterEncoding-UTF-8«/value» 
</property> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdboc.Driver</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>admin</value> 
</property> 
<property> 
<name>hive.exec.local.scratchdir</name> 
<value>/data/hive/scratchdir</value> 
</property> 
<property> 
<name>hive. downloaded. resources. dir</name> 
<value>/data/hive/resourcesdir</value> 
</property> 
<property> 
<name>hive.querylog. location</name> 
<value>/data/hive/querylog</value> 
</property> 
<property> 
<name>hive.server2. logging. operation. log. location</name> 
<value>/data/hive/operation</value> 
</property> 
</configuration> 


这 里 默认 MySQL 已 经 装 好 并 配置 完成 (这 里 需要 先 在 MySQL 数 据 库 中 建立 hive 数 据 库 ) 。 


3) 修改 /etc/profile 文 件 ， 添 加 必要 变量 。 内 容 如 下 : 


export HADOOP HOME-/opt/hadoop-2.6.0 
export HIVE HOME-/opt/apache-hive-1.2.1-bin 
export PATH-SPATH:SH VE HOME/bin 


4) 复制 相关 jar 包 。 


@ 把 MySQL 驱 动 包 拷贝 到 Hive 的 lib 目 录 。 


cp /opt/mysql-connector-java-5.1.25-bin.jar SHIVE HOME/lib/ 


@ 将 Hive jline 包 拷贝 到 Hadoop 的 Yarn lib 目 录 ， 并 删除 Hadoop Yarn lib 目 录 对 应 的 jline 包 。 


cp SHIVE HOME /lib/jline-2.12.jar $HADOOP HOME /share/hadoop/yarn/lib/ 
rm -rf SHADOOP HOME/share/hadoop/yarn/lib/jline-0.9.94.jar 


3. 启 动 Hive 命 令 行 
Hive 配 置 完 成 后 ， 使 用 如 下 命令 在 $ HIVE_HOME/bin 目 录 启动 Hive。 


[root@slave2 bin]# ./hive 


启动 后 ， 终 端 会 输出 类 似 下 面 的 信息 : 


[root@slave2 bin]# ./hive 

Logging initialized using configuration in jar:file:/opt/apache-hive-1.2.1-bin/lib/hive 
-common-1.2.1.jar!/hive-log4j.properties 

hive> 


同时 ， 查 看 MySQL 表 中 的 Hive 数 据 库 ， 可 以 看 到 Hive 建 立 的 meta 表 ， 如 图 3-1 所 示 。 


mysql> show tables; 

二 -下 

| Tables in hive | 
BUCKETING COLS 


| | 
| | 
| | 
| | 
| | 
| | 
| | 
| GL i | 
| PARTITIONS | 
| PARTITION KEYS | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 


PARTITION | ERI VALS 


图 3-1 MySQL 中 的 Hive 表 


加 注意 如 果 出 现下 面 的 错误 ， 即 说 明 配 置 Hive 出 错 ， 参 考 上 面 的 配置 即 可 。 


[ERROR] Terminal initialization failed; falling back to unsupported 


java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was ex- 
pected 
at jline.TerminalFactory.create (TerminalFactory.java:101) 
at jline.TerminalFactory.get (TerminalFactory.java:158) 
at jline.console.ConsoleReader.«init» (ConsoleReader.java:229) 
at jline.console.ConsoleReader.«init» (ConsoleReader.java:221) 
at jline.console.ConsoleReader.«init» (ConsoleReader.java:209) 
at org.apache.hadoop.hive.cli.CliDriver.setupConsoleReader (CliDriver.java: 787) 


Exception in thread \"main\" java.lang.RuntimeException: java.lang.IllegalArgumentExcep- 
tion: java.net.URISyntaxException: Relative path in absolute URI: S{system:java.io.tmp- 
dir$7D/S$S$7Bsystem:user.name$7D 
at org.apache.hadoop.hive.ql.session.SessionState.start (SessionState.java:444) 
org.apache.hadoop.hive.cli.CliDriver. run (CliDriver.java:672) 
org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java: 616) 

sun. reflect .NativeMethodAccessorImpl1.invoke0 (Native Method) 
sun.reflect.NativeMethodAccessorImpl.invoke (NativeMethodAccessorImp1 .java: 62) 
sun. reflect .DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:43) 
java.lang.reflect.Method. invoke (Method. java: 483) 

org.apache.hadoop.util.RunJar.main (RunJar.java:212) 
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第 3 章 Hadoop 生 态 系统 : Hive 


3.1 概述 
3.1.1 “Hive 简介 


Hive 最 初 是 应 Facebook 每 天 产生 的 海量 新 兴 社 会 网 络 数据 进行 管理 和 机 器 学 习 的 需求 而 产生 和 发 展 的 ， 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 作 为 Hadoop 的 一 个 数据 仓库 工具 ，Hive 可 以 将 结构 


化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 简单 的 SQL 查询 功能 。 


Hive 作 为 构建 在 Hadoop 之 上 的 数据 仓库 ， 它 提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 提取 转化 加 载 (ETL) ， 这 是 一 种 可 以 人 存储、 查询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。Hive 定 义 了 简单 
的 类 SQL 查询 语言 ， 称 为 HQL， 它 允许 熟悉 SQL 的 用 户 查 询 数据 。 同 时 ， 该 语言 也 允许 熟悉 MapReduce 的 开发 者 开发 自 定义 的 Mapper 和 Reducer 来 处 理 内 建 的 Mapper 和 Reducer 无 法 完成 的 复杂 的 分 析 
工作 。 


Hive 没 有 专门 的 数据 格式 。Hive 可 以 很 好 地 工作 在 Thrift 之 上 ， 控 制 分 隔 符 ， 也 允许 用 户 指定 数据 格式 。 
Hive 具 有 以 下 特点 : 
“ 支持 索引 ， 加 快 数据 查询 。 
“不同 的 存储 类 型 ， 如 纯 文本 文件 、HBase 中 的 文件 。 
- 将 元 数据 保存 在 关系 数据 库 中 ， 大 大 减少 了 在 查询 过 程 中 执行 语义 检查 的 时 间 。 
* 可 以 直接 使 用 存储 在 Hadoop 文 件 系 统 中 的 数据 。 
. 内 置 大 量 用 户 函 数 UDF 来 操作 时 间 、 字 符 串 和 其 他 的 数据 挖掘 工 具 ， 支 持 用 户 扩展 UDF 汶 数 来 完成 内 置 函数 无 法 实现 的 操作 。 
类 SQL 的 查询 方式 ， 将 SQL 查 询 转 换 为 MapReduce 的 Job 在 Hadoop 集 群 上 执行 。 


Hive 构 建 在 基于 静态 批 处 理 的 Hadoop 之 上 ，Hadoop 通 常 都 有 较 高 的 延迟 并 且 在 作业 提交 和 调度 时 需要 大 量 的 开销 。 因 此 ，Hive 并 不 能 够 在 大 规模 数据 集 上 实现 低 延 迟 快速 的 查询 。 例 如 ，Hive 在 几 
百 MB 的 数据 集 上 执行 查询 一 般 有 分 钟 级 的 时 间 延 迟 。 因 此 ，Hive 并 不 适合 那些 需要 低 延 迟 的 应 用 ， 如 联机 事务 处 理 (OLTP) 。Hive 查 询 操作 过 程 严格 遵守 Hadoop MapReduce 的 作业 执行 模型 ，Hive 将 
用 户 的 HiveQL 语 句 通过 解释 器 转换 为 MapReduce 作 业 提 交 到 Hadoop 和 集群 上 ，Hadoop 监 控 作 业 执行 过 程 ， 然 后 返回 作业 执行 结果 给 用 户 。Hive 并 非 为 联机 事务 处 理 而 设计 ，Hive 并 不 提供 实时 的 查询 和 
基于 行 级 的 数据 更 新 操作 。Hive 的 最 佳 使 用 场合 是 大 数据 集 的 批 处 理 作 业 ， 如 网 络 日 志 分 析 。 


3.1.2 ”Hive 安 装 与 配置 


使 用 表 3-1 中 的 软件 版 本 进行 配置 。 


表 3-1 软件 版 本 列表 


软件 备注 


操作 系统 CentOS 6. 4 64bit 操作 系统 版 本 使 用 CentOS 6. 5 亦 可 
虚拟 机 VMware 9.0 

Hive 使 用 文 持 Hadoop 2. X 的 版 本 

JDK 


上 面 的 软件 版 本 准备 好 后 ， 按 照 下 面 的 步骤 进行 配置 。 


1. 配 置 VMware 虚 拟 机 


参考 第 2 章 的 配置 ， 配 置 好 虚拟 机 。 


这 里 在 机 器 slave2 上 安装 Hive。 


2. 下 载 并 配置 Hive 


1) 在 Hive 的 官网 http://mirrors.cnnic.cn/apache/hive/ 下 载 Hive， 其 文件 为 : apache-hive-1.2.1-bin.tar.gz。 下 载 后 解压 到 slave2 机 器 中 。 


2) 在 slave2 机 器 进行 配置 即 可 。 配 置 文件 在 $ HIVE HOME/Vconf 文 件 夹 中 。 复 制 hive-default.xmltemplate 文 件 到 hive-site.xml 文 件 ， 修 改 内 容 如 下 : 


<configuration> 
<property> 
«name»javax.jdo.option.ConnectionURL«/name» 
«value»jdbc:mysql://slave2:3306/hive?characterEncoding-UTF-8«/value» 
</property> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql .jdboc.Driver</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>admin</value> 
</property> 
<property> 
<name>hive.exec.local.scratchdir</name> 
<value>/data/hive/scratchdir</value> 
</property> 
<property> 
<name>hive.downloaded. resources. dir</name> 
<value>/data/hive/resourcesdir</value> 
</property> 
<property> 
<name>hive.querylog. location</name> 
<value>/data/hive/querylog</value> 
</property> 
<property> 
<name>hive.server2.logging.operation. log. location</name> 
<value>/data/hive/operation</value> 
</property> 
</configuration> 


这 里 默认 MySQL 已 经 装 好 并 配置 完成 (这 里 需要 先 在 MySQL 数 据 库 中 建立 hive 数 据 库 ) 。 


3) 修改 /etc/profile 文 件 ， 添 加 必要 变量 。 内 容 如 下 : 


export HADOOP HOME-/opt/hadoop-2.6.0 
export HIVE HOME-/opt/apache-hive-1.2.1-bin 
export PATH-SPATH:SH VE HOME/bin 


4) 复制 相关 jar 包 。 


@ 把 MySQL 驱 动 包 拷贝 到 Hive 的 lib 目 录 。 


cp /opt/mysql-connector-java-5.1.25-bin.jar SHIVE HOME/lib/ 


@ 将 Hive jline 包 拷贝 到 Hadoop 的 Yarn lib 目 录 ， 并 删除 Hadoop Yarn lib 目 录 对 应 的 jline 包 。 


cp SHIVE HOME /lib/jline-2.12.jar $HADOOP HOME /share/hadoop/yarn/lib/ 
rm -rf SHADOOP HOME/share/hadoop/yarn/lib/jline-0.9.94.jar 


3. 启 动 Hive 命 令 行 


Hive 配 置 完成 后 ， 使 用 如 下 命令 在 $ HIVE_HOME/bin 目 录 启 动 Hive。 


[root@slave2 bin]# ./hive 


启动 后 ， 终 端 会 输出 类 似 下 面 的 信息 : 


[root@slave2 bin]# ./hive 

Logging initialized using configuration in jar:file:/opt/apache-hive-1.2.1-bin/lib/hive 
-common-1.2.1.jar!/hive-10g4j.properties 

hive» 


同时 ， 查 看 MySQL 表 中 的 Hive 数 据 库 ， 可 以 看 到 Hive 建 立 的 meta 表 ， 如 图 3-1 所 示 。 


mysql> show tables; 

十 ——— n 
| Tables in hive | 
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| PARTITION KEYS 

| PARTITION KEY VALS 
PARTITION PARAMS 
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tla E SI VALUES 
| IAB COL STATS 
TELS 

VERSION 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
29 rows in set (0.00 sec) 
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图 3-1 MySQL 中 的 Hive 表 


加 注意 如 果 出 现下 面 的 错误 ， 即 说 明 配 置 Hive 出 错 ， 参 考 上 面 的 配置 即 可 。 


java.lang.] 
pected 
at jline.TerminalFactory.create (TerminalFactory.java:101) 
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jline.console.ConsoleReader.«init» (ConsoleReader.java:221) 
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RROR] Terminal initialization failed; fa 
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ling back to unsupported 


[ncompatibleClassChangeError: Found class jline.Terminal, but interface was ex- 
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uu. 
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Chek ch 


jline.console.ConsoleReader.<init>(ConsoleReader.java:209) 


org.apache 


.hadoop.hive.cli.CliDriver.setupConsoleReader (CliDriver. java: 787) 


w 


Gh ct et ehh crock ct 


ception in 


org.apache 
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org.apache 


Bsystem:user.name$7D 


thread \"main\" java.lang.RuntimeException: java.lang.IllegalArgumentExcep- 
tion: java.ne 
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t.URISyntaxException: Relative path in absolute URI: S{system:java.io.tmp- 


-hadoop.hive.gl.session.SessionState. start (SessionState. java: 444) 
-hadoop.hive.cli.CliDriver.run(CliDriver. java: 672) 
-hadoop.hive.cli.CliDriver.main(CliDriver.java:616) 


sun. rerlec 


t.NativeMethodAccessorImpl.invoke0 (Native Method) 


sun.reflec 


t.NativeMethodAccessorimpl .invoke (NativeMethodAccessorimpl.java:602) 


sun.reflec 


t.DelegatingMethodAccessorImpl. invoke (DelegatingMethodAccessorImpl. java: 43) 


java.lang.reflect.Method. invoke (Method. java: 483) 


org.apache 


.hadoop.util.RunJar.main (RunJar.java:212) 


3.2 


3.2.1 


HIve 原 理 


Hive 架 构 


Hive 的 架构 如 图 3-2 所 示 。 
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图 3-2 ”Hive 的 架构 


从 图 3-2 中 可 以 看 到 ，Hive 包 含 用 户 访问 接口 (CLI、JDBC/ODBC、GUI 和 Thrift Server) 、 元 数据 存储 (Metastore) 、 驱 动 组 件 (包括 编译 、 优 化 、 执 行 驱动 ) 。 


用 户 访问 接口 即 用 户 用 来 访问 Hive 数 据 仓库 所 使 用 的 工具 接口 。CLI (command line interface) 即 命令 行 接口 。Thrift Server 是 Facebook 开 发 的 一 个 软件 框架 ， 它 用 来 开发 可 扩展 且 跨 语言 的 服 
务 ，Hive 集 成 了 该 服务 ， 能 让 不 同 的 编程 语言 调用 Hive 的 接口 。Hive 客 户 端 提供 了 通过 网 页 的 方式 访问 Hive 提 供 的 服务 ， 这 个 接口 对 应 Hive 的 HWI 组 件 (Hive web interface) ， 使 用 前 要 启动 HWI 服 务 。 


Metastore 是 Hive 中 的 元 数据 存储 ， 主 要 存储 Hive 中 的 元 数据 ， 包 括 表 的 名 称 、 表 的 列 和 分 区 及 其 属性 、 表 的 属性 (是 否 为 外 部 表 等 ) 、 表 的 数据 所 在 目录 等 ， 一 般 使 用 MySQL 或 Derby 数 据 库 。 
Metastore 和 Hive Driver 驱 动 的 互联 有 两 种 方式 ， 一 种 是 集成 模式 ， 如 图 3-3 所 示 ; 一 种 是 远程 模式 ， 如 图 3-4 所 示 。 
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图 3-4 ”Metastore 和 Drivet 通 信 (远程 模式 ) 


驱动 组 件 包括 编译 器 、 优 化 器 和 执行 引擎 ， 分 别 完成 HQL 查 询 语句 的 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生成 ， 生 成 的 查询 计划 存储 在 HDFS 中 ， 并 在 随后 由 MapReduce 调 用 执行 。 


3.2.2 ”Hive 的 数据 模型 


Hive 支 持 多 种 基本 数据 类 型 ,具体 如 表 3-2 所 示 。 


表 3-2 Hive 基 本 数据 类 型 


类 型 
TINYINT 


SMALLINT 


INT 


BIGINT 
FLOAT 


DOUBLE 

DECIMAL 
TIMESTAMP 
DATE 


STRING 


VARCHAR 


CHAR 


BOOLEAN 
BINARY 


ey eR, —128 ~127 
PERL, —32768 ~ 32 767 
4 ee, -2147483648 -2 147 483 647 


T bius — 9 223 372 036 854 775 808 ~9 223 372 036 854 775 807 


F 


布尔 值 ， 
,0 或 1 


- 进 制 


I m 


TRUE aie FALSE 


示例 

12 

255 

25 000 

— 250 000 000 000 
3. 1415 

3. 141 592 6 

10 

2015-07-17 12:20:22 
2015-07-17 

" abed" 

" abed" 

" abed" 
TRUE 


| 


Hive 除 了 基本 数据 类 型 外 ， 还 包括 集合 数据 类 型 : 数组 (arrays) ， 其 格式 为 ARRAY< data_type>; 键 值 对 (maps) , EHdExXJMAP «primitive type, datatype>; 结构 体 (structs) ， 其 格式 为 


STRUCT «col name: data type» ; 


Hive 中 没有 专门 的 数据 存储 格式 ， 也 没有 为 数据 建立 索引 ， 用 户 可 以 非常 自由 地 组 织 Hive 中 的 表 ， 只 需要 在 创建 表 时 


联合 体 (union) , 


其 格式 为 UNIONTYPE<data type, data type, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/...>. 


Hive 中 的 所 有 数据 都 存储 在 HDFS 中 ，Hive 中 包含 以 下 数据 模型 : 表 、 外 部 表 、 分 区 、 桶 。 


1) 表 (Table) 
hive.metastore.warehouse.dir 属 性 来 配置 ， 


: Hive 中 的 表 和 关系 型 数据 库 中 的 表 在 概念 很 类 似 ， 每 个 表 在 HDFS 中 都 有 相应 的 目录 用 来 存储 表 的 数据 ， 
这 个 属性 的 默认 值 是 /user/hive/warehouse (这 个 目录 在 HDFS_ 上 ) 


建 /user/hive/warehouse/employees 目 录 ，employees 表 的 所 有 数据 都 存放 在 这 个 目录 中 。 


2) 外 部 表 (External Table) 
不 删除 该 外 部 表 所 指向 的 数据 ， 它 只 会 删除 外 部 表 对 应 的 元 数据 ; 但 是 如 果 要 删除 表 ， 该 表 对 应 的 所 有 数据 包括 元 数据 都 会 被 删除 。 


3) 分 区 (Partition) : 


create table employees 


(id int, 


partitioned by (dept string); 


在 HDFS 中 ， 其 数据 的 目录 如 下 : 


/user/hive/warehouse/employees 


/dept=hr/ 


/dept=support/ 
/dept=engineering/ 
/dept=training/ 


在 Hive 中 ， 表 的 每 一 个 


告诉 Hive 数 据 中 的 列 分 隔 符 和 行 分 隔 符 ，Hive 就 可 以 解析 数据 。 


这 个 目录 可 以 通过 $ HIVE_HOME/conf/hive-site.xm| 配 置 文件 中 的 
， 可 以 根据 实际 情况 来 修改 这 个 配置 。 如 果 有 一 个 表 employees， 那 么 在 HDFS 中 会 创 


: Hive 中 的 外 部 表 和 表 很 类 似 ， 但 是 其 数据 不 是 放 在 hive.metastore.warehouse.dir 配 置 的 目录 中 ， 而 是 放 在 建立 表 时 指定 的 目录 。 创 建 外 部 表 可 以 在 删除 该 外 部 表 时 ， 


分 区 对 应 表 下 的 相应 目录 ， 所 有 分 区 的 数据 都 存储 在 对 应 的 目录 中 。 比 如 ， 针 对 下 面 的 建 表 语句 : 


name string, salary double) 


即 在 进行 数据 存储 时 ， 指 定 的 分 区 列 的 每 一 个 值 都 会 新 建 一 个 目录 。 


4) #8 (Bucket) 


33 ”动手 实践 


按照 3.1.2 节 以 及 第 2 章 的 详细 配置 步骤 进 


实践 一 : Hive 表 


: 对 指 


定 的 列 计算 其 哈 希 值 ， 根 据 哈 希 值 切 分 数据 ， 目 的 是 并 行 ， 每 一 个 桶 对 应 一 个 文件 (注意 和 分 区 的 区 别 ) 。 
进行 编号 ， 从 0~ 7， 然 后 对 id 列 的 值 计 算 哈 希 值 ， 再 把 计算 的 哈 希 值 使 用 求 余 运算 得 到 0~ 7 的 某 个 数字 ， 把 该 数据 放 入 数字 对 应 的 桶 中 。 


J 操作 ， 部 署 完 成 后 即 可 进行 下 面 的 实验 (默认 使 用 Hadoop 2.6 和 Hive 1.2.1 版 本 ) 。 


1) 下 载 “02- 上 机 实验 /visits data.txt” 文 件 ， 并 查看 数据 。 


[root@slave2 opt]# head -n 5 visits data.txt 
BUCKLEYSUMMER 10/12/2010 14: 4810/12/2010 14: 45WH 
CLOONEY GEORGE 10/12/2010 :4710/12/2010 14:45WH 
PRENDERGAST JOHN 10/12/2010 14:4810/12/2010 14:45WH 
LANIER JAZMIN 0/13/2010 13:00WHBILL SIGNING/ 
MAYNARD ELIZABETH 10/13/2010 12:3410/13/2010 13:00WHBILL SIGNING/ 


visits_data.txt 数 据 包含 6 列 ， 分 别 对 应 名 字 ， 姓 ， 


2) 下 载 “02- 上 机 实验 /visits.hive” 


， 并 查看 。 


访问 时 间 ， 计 划 访 问 时 间 ， 地 点 ,备注 , 使 用 “\t” 分 隔 。 


例如 ， 将 employees 表 的 id 列 分 散 至 8 个 桶 中 ， 那 么 首先 会 对 每 个 桶 


[root@ slave2 opt]# cat visits.hive 
--cat visits.hive 

create table people visits ( 

last name string, 


first name string, 
arrival time string, 
scheduled time string, 
meeting location string, 
info comment string) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY 'Nt' ; 


上 述 代 码 是 Hive 中 新 建 表 的 代码 ， 使 用 上 述 代 码 即 可 建立 Hive 中 的 表 。 


3) 使 用 Hive 命 令 ， 建 立 Hive 的 people visitsz&, 


root@ slave2 bin]# ./hive -f /opt/visits.hive 

Logging initialized using configuration in jar:file:/opt/apache-hive-1.2.1-bin/lib/hive 
-common-1.2.1.jar!/hive-log4j.properties 

OK 

Time taken: 2.391 seconds 


4) 使 用 hive shell 命 令 行 ， 查 看 生产 的 表 。 


[root@ slave2 ~]# hive 

Logging initialized using configuration in jar:file:/opt/apache-hive-1.2.1-bin/lib/hive 
-common-1.2.1.jar!/hive-log4j.properties 

hive> show tables; 

OK 
people visits 
Time taken: 1.344 seconds, Fetched: 1 row(s) 
hive> describe people visits ; 

OK 

last name string 


first name string 
arrival time string 
scheduled time string 
meeting location string 
info comment string 


Time taken: 0.338 seconds, Fetched: 6 row(s) 


这 里 可 以 看 到 刚才 建立 的 表 ， 以 及 表 的 描述 。 
5) 插入 数据 。 


@@ 使 用 查询 命令 查看 表 中 的 数据 。 


hive> select * from people visits limit 10; 
OK 
Time taken: 0.863 seconds 


可 以 看 到 表 中 没有 数据 。 


使 用 hadoop fs 命令 ， 拷 贝 visits data.txt&lHDFSBS/user/hive/warehouse/people visits 目 录 中 。 


[root@ slave2 opt]# hadoop fs -put visits data.txt /user/hive/warehouse/people visits 
[root@ slave2 opt]# hadoop fs -ls /user/hive/warehouse/people visits 

-rw-r--r-- 3 root supergroup 989239 2015-08-17 10:30 /user/hive/warehouse/people _ 
visits/visits data.txt 


@@ 再 次 查看 数据 。 

hive> select * from people visits limit 5; 

OK 

BUCKLEYSUMMER 10/12/2010 14:4810/12/2010 14:45WH 

CLOONEY GEORGE 10/12/2010 14:4710/12/2010 14:45WH 

PRENDERGAST JOHN 10/12/2010 14:4810/12/2010 14:45WH 

LANIER JAZMIN 10/13/2010 13:00 WHBILL SIGNING/ 
MAYNARD ELIZABETH 10/13/2010 12:3410/13/2010 13:00WHBILL SIGNING/ 
Time taken: 0.155 seconds, Fetched: 5 row(s) 


可 以 看 到 已 经 查看 到 数据 了 。 


6) 使 用 M R 进 行 查询 。 


hive> select count(*) from people visits; 
Query ID = root 20150817103724 d20ca51d-06ca-4efb-be59-6f66aec97489 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 
set hive.exec. reducers. bytes.per. reducer=<number> 
In order to limit the maximum number of reducers: 
set hive.exec. reducers .max=<number> 
In order to set a constant number of reducers: 
set mapreduce. job. reduces=<number> 
Starting Job = job 1439775378077 0003, Tracking URL = http://node101:8088/proxy/application 1439775378077 0003/ 
Kill Command = /opt/hadoop-2.6.0/bin/hadoop job-kill job 1439775378077 0003 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
2015-08-17 10:37:33,759 Stage-1 map = 0%,reduce = 0% 
2015-08-17 10:37:41,432 Stage-1 map = 100$,reduce = 0$, Cumulative CPU 2.11 sec 
2015-08-17 10:37:48,932 Stage-1 map = 100$,reduce = 100$, Cumulative CPU 4.57 sec 
MapReduce Total cumulative CPU time: 4 seconds 570 msec 
Ended Job = job 1439775378077 0003 
MapReduce Jobs Launched: B 
Stage-Stage-1: Map: lReduce: 1 Cumulative CPU: 4.57 sec HDFS Read: 996387 HDFS Write: 6 SUCCESS 
Total MapReduce CPU Time Spent: 4 seconds 570 msec 
OK 
17977 
Time taken: 25.92 seconds, Fetched: 1 row(s) 


这 里 使 用 MR 查询 看 到 查询 所 有 行 数 。 


7) 删除 people_visits 表 。 


hive> drop table people visits; 
OK 
Time taken: 1.355 seconds 


hive> dfs -ls /user/hive/warehouse/people visits; 

ls: '/user/hive/warehouse/people visits': No such file or directory 
Command failed with exit code = 1 

Query returned non-zero code: 1, cause: null 


这 里 看 到 删除 表 之 后 ，HDFS 中 的 数据 也 被 删除 了 。 
实践 二 : Hive 外 部 表 


1) 拷贝 “02- 上 机 实验 /names.txt” 到 客户 端 机 器 /opt 目 录 下 ， 并 上 传 至 HDFS。 


[root@ slave2 ~]# hadoop fs -put /opt/names.txt /user/root/names.txt 
[root@ slave2 ~]# hadoop fs -ls /user/root/names.txt 

-rw-r--r-- 3 root supergroup 78 2015-08-17 11:11 /user/root/names.txt 
[root@ slave2 ~]# 


2) 在 HDFS 上 新 建 /user/root/hivedemo 文 件 夹 。 


[root@ slave2 ~]# hadoop fs -mkdir /user/root/hivedemo 


3) 新 建 Hive 外 部 表 ， 并 指定 数据 存储 位 置 为 /user/root/hivedemo。 


hive> create external table names (id int,name string) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt' 
> LOCATION '/user/root/hivedemo'; 


OK 
Time taken: 0.206 seconds 


4) 把 数据 导入 Hive 的 外 部 表 names 表 中 。 


hive> load data inpath '/user/root/names.txt' into table names; 
Loading data to table default.names 
Table default.names stats: [numFiles=0, numRows-0, totalSize=0, rawDataSize=0] 
OK 

Time taken: 0.451 seconds 


5) 查看 表 中 的 数据 。 


hive> select * from names; 


3Ulf 
4Danielle 

5Tom 

6manish 

7Brian 

8Mark 

Time taken: 0.102 seconds, Fetched: 9 row(s) 

hive> dfs -ls hivedemo; 

Found 1 items 

-rwxr-xr-x 3 root supergroup 78 2015-08-17 11:11 hivedemo/names.txt 
hive> dfs -ls /user/hive/warehouse; 


这 里 可 以 看 到 表 中 有 数据 ， 同 时 数据 存储 在 指定 的 /user/root/hivedemo 中 ， 并 没有 存储 在 默认 的 /user/hive/warehouse 中 。 


6) 删除 表 。hive>drop table names; 


hive> drop table names; 
OK 
Time taken: 0.136 seconds 
hive> show tables; 

OK 
Time taken: 0.049 seconds 

hive> dfs -ls hivedemo; 

Found 1 items 

-rwxr-xr-x 3 root supergroup 78 2015-08-17 11:11 hivedemo/names.txt 


这 里 可 以 看 到 虽然 表 已 经 删除 了 ， 但 是 HDFs 中 的 数据 并 没有 删除 。 


3.4 We 


本 章 先 介绍 大 数据 仓库 Hive 的 基础 概念 ， 接 着 ， 详 细 介绍 了 使 用 VMware 虚拟 机 搭建 分 布 式 Hive 客 户 端 环境 的 步骤 ， 使 读者 可 以 根据 搭建 步骤 一 步 步 搭建 自己 的 本 地 学 习 环境 ， 方 便 后 面 的 学 习 实 验 。 
然后 ， 分 析 了 Hive 的 原理 ， 主 要 包括 Hive 的 架构 ，Hive 各 个 组 件 的 功能 以 及 Hive 数 据 模 型 、 数 据 存 储 原 理 等 。 最 后 ， 给 出 了 详细 设计 的 实验 ， 使 读者 动手 实践 ， 加 深 对 原理 的 认识 和 理解 。 
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4.1 概述 


4.1.1 HBase 简 介 


HBase 项 目 是 由 Powerset 公 司 的 Chad Walters 和 Jim Kellerman 从 2006 年 底 开 始 创建 的 ， 最 开始 是 基于 Google 论 文 Bigtable: A Distributed Storage System for Structured Data， 并 在 2007 年 2 
月 ， 由 Jim Kellerman 进 行 了 完善 。HBase 最 初 发 布 是 作为 Hadoop 0.15.0 的 一 部 分 ， 从 2008 年 开始 ，HBase 成 为 Hadoop 项 目的 一 个 子 项 目 。 


HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 利 用 HBase 技 术 可 在 廉价 PC 服务 器 上 搭建 起 大 规模 结构 化 存储 集群 。HBase 不 同 于 一 般 的 关系 数据 库 ， 它 是 一 个 适合 于 非 结 构 化 数据 存储 的 数据 库 。 
HBase 利 用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ， 同 时 利用 Zookeeper 作 为 其 协同 服务 。 另 一 个 不 同 的 是 ，HBase 是 基于 列 的 ， 而 不 是 基于 行 的 模式 。 


HBase 具 有 以 下 特点 : 
线性 和 模块 化 可 扩展 性 ; 
" 严格 一 致 的 读 取 和 写 入 ; 
: 表 的 自动 配置 和 分 片 ; 
. 支持 RegionSetvets 之 间 的 自动 故障 转移 ; 
- 方便 的 基 类 支持 Hadoop 的 MapReduce 作 业 与 Apache HBase 的 表 ; 
.易于 使 用 的 Java API 的 客户 端 访 问 ; 
* 块 缓存 和 布 鲁 姆 过 滤器 实时 查询 ; 
.Thrift 网 关 和 REST-FUL Web 服 务 支持 XML、protobuf 和 二 进 制 的 数据 编码 选项 ; 
. 可 扩展 的 基于 JRuby (JIRB) 的 脚本 ; 
. 支持 监控 信息 通过 Hadoop 子 系统 导出 到 文件 或 Ganglia。 
此 外 ，Pig 和 和 Hive 还 为 HBase 提 供 了 高 层 语言 支持 ， 这 使 得 在 HBase 上 进行 数据 统计 处 理 变 得 非常 简单 。Sqoop 则 为 HBase 提 供 了 方便 的 RDBMS 数 据 导 入 功能 ， 这 使 得 传统 数据 库 数据 向 HBase 迁 移 变 


得 非常 方便 。 


41.2 ”HBase 安 装 与 配置 


使 用 表 4-1 中 的 软件 版 本 进行 配置 。 


表 4-1 软件 版 本 列表 


软件 z 


操作 系统 CentOS 6. 4 64bit 操作 系统 版 本 使 用 CentOS 6. 5 亦 可 


虚拟 机 VMware 9.0 
HBase 便 用 文 持 Hadoop 2. X 的 版 本 
JDK 


上 面 的 软件 版 本 准备 好 后 ， 按 照 下 面 的 步骤 进行 配置 。 
1. 配 置 VMware 虚 拟 机 
参考 第 2 章 配 置 好 虚拟 机 。 


虚拟 机 配置 好 后 ， 配 置 HBase 参 考 表 4-2 的 服务 分 配 来 配置 HBase。 


#42 ”HBase 服 务 分 配 架 构 


slavel 备份 


Dj 


Rm | Fi 


2. 下 载 并 配置 HBase 
在 HBase 的 官网 http://mirrors.cnnic.cn/apache/hbase/ 下 载 HBase， 其 文件 为 : hbase-1.0.1.1-bin.tar.gz。 下 载 后 解压 到 master 机 器 。 
在 master 机 器 进行 配置 即 可 ， 然 后 可 以 通过 拷贝 配置 文件 的 方式 ， 下 载 到 slave1 和 slave2， 这 样 可 以 减少 工作 量 。 


配置 文件 在 $ HBASE_HOME/conf 文 件 夹 中 。 修 改 文件 hbase-site.xml 文 件 ， 内 容 如 下 : 


<configuration> 

<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 

</property> 

<property> 
<name>hbase. rootdir</name> 

<value>hdfs://master:8020/hbase</value> 


</property> 

<property> 
<name>hbase. zookeeper . quorum</name> 

<value>master, slavel, slave2</value> 


</property> 
<property> 


<name>hbase. zookeeper.property.dataDir</name> 
<value>/data/zookeeper</value> 
</property> 
</configuration> 


修改 hbase-env.sh 文 件 ， 添 加 JDK 的 配置 。 内 容 如 下 : 


export JAVA HOME-/us 


r/lib/jvm/java-1.7.0-openjdk-1.7.0.75.x86 64 


修改 regionservers， 内 容 如 下 : 


lavel 
lave2 


[0] 


[6] 


新 建 backup-masters 文 件 ， 内 容 如 下 : 


slavel 


3. 启 动 及 关闭 HBase 


HBase 配 置 文件 修改 完成 后 ， 在 $ HBASE_HOME/bin 目 录 启 动 HBase， 使 用 命令 : 


[root@master bin]# . 


/start-hbase.sh 


启动 后 ， 终 端 输出 类 似 下 面 的 信息 : 


[root@master bin]# ./start-hbase.sh 

master: starting zookeeper, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 
slavel: starting zookeeper, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 
slave2: starting zookeeper, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 
starting master, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0EBPS/Text/. 
starting master, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0EBPS/Text/. 
slavel: starting regionserver, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1551 
Slave2: starting regionserver, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1551 


5516/0EBPS/Text/../logs/hk 


5516/OEBPS/Text/../logs/hk 
5516/0EBPS/Text/../logs/hk 


查看 HBase 是 否 已 经 启动 ， 可 以 使 用 命令 jps 查 看 HBase 的 进程 ， 分 别 在 master、slave1、slave2 中 执行 jps 命 令 ， 即 可 看 到 各 个 HBase 的 进程 服务 。 


master: 


./logs/hbase-root-me 
./logs/hbase-root-me 


6/OEBPS/Text/../logs 
6/OEBPS/Text/../logs 


[root@master ~]# jps 
6833 HQuorumPeer 

8338 Jps 
6902 Hmaster 


slave1 : 


[root@slavel ~]# jps 
7643 HQuorumPeer 
8338 Jps 

6902 HMaster 

7226 HregionServer 


slave2: 


[root@slave2 ~]# jps 
6833 HQuorumPeer 
8338 Jps 

7226 HregionServer 


在 浏览 器 访问 http://master:16010/master-status， 查 看 HBase 的 状态 。 


关闭 HBase， 在 maste 


r 机 器 上 执行 下 面 的 命令 : 


[root@master bin]# ./stop-hbase.sh 


Quz 如 果 发 现 slav 


el 中 的 RegionSetvet 启 动 不 了 ， 可 以 在 $HBASE_HOME/log 下 查看 RegionSetvet 对 应 的 日 志 ， 如 果 出 现下 面 的 错误 : 


Caused by: java.net.] 


BindException: Problem binding to master.example.com/192.168.222.131:16020 : Address already in use 


让 


TMA 


at org.apache.hadoop.hbase.ipc.RpcServer.bind (RpcServer.java:2371) 
org.apache.hadoop.hbase.ipc.RpcServer$Listener.«init» (RpcServer.java:524) 
org.apache.hadoop.hbase.ipc.RpcServer.«init» (RpcServer.java:1899) 
org.apache.hadoop.hbase.regionserver.RSRpcServices.«init» (RSRpcServices.java: 792) 
org.apache.hadoop.hbase.regionserver.HRegionServer.createRpcServices (HRegionServer.java:575) 
org.apache.hadoop.hbase.regionserver.HRegionServer.«init» (HRegionServer.java:492) 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/OEBPS/Text/... 10 more 


Caused by: java.net.] 


BindException: Address already in use 


就 说 明 HBase 和 RegionSetvet 端 口 相 同 ， 需 要 使 用 下 面 的 方式 局 动 RegionSetvet。 


[root@slavel bin]#./local-regionservers.sh 2 


第 4 章 ”Hadoop 生 态 系 统 : HBase 


4.1 概述 


4.1.1 HBase 简 介 


HBase 项 目 是 由 Powerset 公 司 的 Chad Walters 和 Jim Kellerman 从 2006 年 底 开 始 创建 的 ， 最 开始 是 基于 Google 论 文 Bigtable: A Distributed Storage System for Structured Data， 并 在 2007 年 2 


月 ， 由 Jim Kellerman 进 行 了 完善 。HBase 最 初 发 布 是 作为 Hadoop 0.15.0 的 一 部 分 ， 从 2008 年 开始 ，HBase 成 为 Hadoop 项 目的 一 个 子 项 目 。 


HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 利 用 HBase 技 术 可 在 廉价 PC 服务 器 上 搭建 起 大 规模 结构 化 存储 集群 。HBase 不 同 于 一 般 的 关系 数据 库 ， 它 是 一 个 适合 于 非 结构 化 数据 存储 的 数据 库 。 
HBase 利 用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ， 同 时 利用 Zookeeper 作 为 其 协同 服务 。 另 一 个 不 同 的 是 ，HBase 是 基于 列 的 ， 而 不 是 基于 行 的 模式 。 


HBase 具 有 以 下 特点 : 
线性 和 模块 化 可 扩展 性 ; 
. 严格 一 致 的 读 取 和 写 入 ; 
- 表 的 自动 配置 和 分 片 ; 
. 支持 RegionSetvets 之 间 的 自动 故障 转移 ; 
. 方便 的 基 类 支持 Hadoop 的 MapReduce 作 业 与 Apache HBase 的 表 ; 
.易于 使 用 的 Java API 的 客户 端 访 问 ; 
. 块 缓存 和 布 鲁 姆 过 滤器 实时 查询 ; 
- Thtift 网 关 和 REST-FUL Web 服 务 支持 XML、protobuf 和 二 进 制 的 数据 编码 选项 ; 
. 可 扩展 的 基于 JRuby (JIRB) 的 脚本 ; 
| 支持 监控 信息 通过 Hadoop 子 系统 导出 到 文件 或 Ganglia。 
此 外 ，Pig 和 和 Hive 还 为 HBase 提 供 了 高 层 语言 支持 ， 这 使 得 在 HBase 上 进行 数据 统计 处 理 变 得 非常 简单 。Sqoop 则 为 HBase 提 供 了 方便 的 RDBMS 数 据 导 入 功能 ， 这 使 得 传统 数据 库 数据 向 HBase 迁 移 变 
得 非常 方便 。 


41.2 ”HBase 安 装 与 配置 


使 用 表 4-1 中 的 软件 版 本 进行 配置 。 


表 4-1 软件 版 本 列表 


软件 T 


操作 系统 CentOS 6. 4 64bit 操作 系统 版 本 使 用 CentOS 6. 5 亦 可 
虚拟 机 VMware 9.0 

HBase 便 用 文 持 Hadoop 2. X 的 版 本 

JDK 


上 面 的 软件 版 本 准备 好 后 ， 按 照 下 面 的 步骤 进行 配置 。 
1. 配 置 VMware 虚 拟 机 
参考 第 2 章 配 置 好 虚拟 机 。 


虚拟 机 配置 好 后 ， 配 置 HBase 参 考 表 4-2 的 服务 分 配 来 配置 HBase。 


#42 HBase 服 务 分 配 架 构 


slavel 是 是 


K 
备份 


2. 下 载 并 配置 HBase 
在 HBase 的 官网 http://mirrors.cnnic.cn/apache/hbase/ 下 载 HBase， 其 文件 为 : hbase-1.0.1.1-bin.tar.gz。 下 载 后 解压 到 master 机 器 。 
在 master 机 器 进行 配置 即 可 ， 然 后 可 以 通过 拷贝 配置 文件 的 方式 ， 下 载 到 slave1 和 slave2， 这 样 可 以 减少 工作 量 。 


配置 文件 在 $ HBASE_HOME/conf 文 件 夹 中 。 修 改 文件 hbase-site.xml 文 件 ， 内 容 如 下 : 


<configuration> 

<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 

</property> 

<property> 
<name>hbase.rootdir</name> 

<value>hdfs://master:8020/hbase</value> 


</property> 
<property> 
<name>hbase. zookeeper . quorum</name> 
<value>master, slavel, slave2</value> 


</property> 
<property> 


«name»hbase.zookeeper.property.dataDir«/name» 
<value>/data/zookeeper</value> 


</property> 
</configuration> 


修改 hbase-env.sh 文 件 ， 添 加 JDK 的 配置 。 内 容 如 下 : 


export JAVA HOME-/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.75.x86 64 


修改 regionservers， 内 容 如 下 : 


lavel 
lave2 


n 


[0] 


新 建 backup-masters 文 件 ， 内 容 如 下 : 


slavel 


3. 启 动 及 关闭 HBase 


HBase 配 置 文件 修改 完成 后 ， 在 $ HBASE_HOME/bin 目 录 启 动 HBase， 使 用 命令 : 


[root@master bin]# ./start-hbase.sh 


启动 后 ， 终 端 输出 类 似 下 面 的 信息 : 


[root@master bin]# ./start-hbase.sh 

master: starting zookeeper, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/OEI 
slavel: starting zookeeper, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0E 
Slave2: starting zookeeper, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0E 
starting master, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/OEBPS/Text/. 
starting master, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0EBPS/Text/. 
slavel: starting regionserver, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0E 
slave2: starting regionserver, logging to /opt/hbase-1.0.1.1/bin/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0E 


BPS/Text/../logs/hk 
IBPS/Text/../logs/hk 
IBPS/Text/../logs/hk 


./logs/hbase-root-me 
./logs/hbase-root-me 


BPS/Text/../logs 


BPS/Text/../logs 


查看 HBase 是 否 已 经 启动 ， 可 以 使 用 命令 jps 查 看 HBase 的 进程 ， 分 别 在 master、slave1、slave2 中 执行 jps 命 令 ， 即 可 看 到 各 个 HBase 的 进程 服务 。 


master: 


[root@master ~]# jps 
6833 HQuorumPeer 

8338 Jps 
6902 Hmaster 


slave1 : 


[root@slavel ~]# jps 
7643 HQuorumPeer 
8338 Jps 

6902 HMaster 

7226 HregionServer 


slave2: 


[root@slave2 ~]# jps 
6833 HQuorumPeer 
8338 Jps 

7226 HregionServer 


在 浏览 器 访问 http://master:16010/master-status， 查 看 HBase 的 状态 。 


关闭 HBase， 在 master 机 器 上 执行 下 面 的 命令 : 


[root@master bin]# ./stop-hbase.sh 


Quz 如 果 发 现 slave1 中 的 RegionSetvet 启 动 不 了 ， 可 以 在 $HBASE_HOME/log 下 查看 RegionSetvet 对 应 的 日 志 ， 如 果 出 现下 面 的 错误 : 


Caused by: 


al .apache. 


.apache. 


hadoop.hbase. 
hadoop.hbase. 


java.net.BindException: Problem binding to master.example.com/192.168.222.131:16020 
ipc.RpcServer.bind (RpcServer.java:2371) 
ipc.RpcServer$Listener.«init» (RpcServer.java:524) 


: Address already in use 


.apache. 
.apache. 
.apache. 


hadoop.hbase. 
hadoop.hbase. 


hadoop.hbase.regionserver.H 


ipc.RpcServer.«init» (RpcServer.java:1899) 
regionserver.RSRpcServices.«init» (RSRpcServices.java: 792) 
RegionServer.createRpcServices (HRegionServer.java:575) 


ct ct ct ct ct ct 


org.apache.hadoop.hbase.regionserver.H 


RegionServer.«init» (HRegionServer.java:492) 


ooo ow ow w 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0El 


10 more 


BPS/Text/... 


Caused by: java.net.BindException: Address already in use 


就 说 明 HBase 和 RegionServer 端 口 相 同 ， 需 要 使 用 下 面 的 方式 启动 RegionServer。 


[root@slavel bin]#./local-regionservers.sh 2 


4.2 HBase 原 理 


4.2.1 HBase 架 构 


HBase 的 架构 如 图 4-1 所 示 。 


HRegionServer 


MemStore 


Store 


Store (MemStore ) 


图 4-1 HBase 架 构图 


从 图 4-1 中 可 以 看 出 HBase 建 立 在 Hadoop 之 上 ，HBase 的 底层 使 用 的 还 是 Hadoop 的 HDFS。 同 时 ，HBase 包 含 3 个 重要 组 件 : Zookeeper、HMaster 和 HRegionServer。Zookeeper 为 整个 HBase 和 集群 
提供 协助 的 服务 (信息 传输 ) ，HMaster 主 要 用 于 监控 和 操作 集群 中 的 所 有 RegionServer，HRegionServer 主 要 用 于 服务 和 管理 分 区 (regions) 。 


(1) Client 
Client 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进 行 通 信 ， 对 于 管理 类 操作 ，Client 与 HMaster 进 行 RPC; 对 于 数据 读 写 类 操作 ，Client 与 HRegionServer 进 行 RPC。 
(2) Zookeeper 


Zookeeper Quorum 中 除了 存储 -ROOT- 表 的 地 址 和 HMaster 的 地 址 外 ，HRegionServer 也 会 把 自己 以 Ephemeral 方 式 注册 到 Zookeeper 中 ， 使 HMaster 可 以 随时 感知 到 各 个 HRegionServer 的 健康 状 


Cn 
o 


(3) HMaster 

HMaster 没 有 单 点 问题 ，HBase 中 可 以 启动 多 个 HMaster， 通 过 Zookeeper 的 Master Election 机 制 保证 总 有 一 个 Master 运 行 ，HMaster 在 功能 上 主要 负责 Table 和 Region 的 管理 工作 。 
1) 管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 ; 

2) 管理 HRegionServer 的 负载 均衡 ， 调 整 Region 分 布 ; 

3) 在 Region Split 后 ， 负 责 新 Region 的 分 配 ; 

4) 在 HRegionServer 停 机 后 ， 负 责 失效 HRegionServer 上 的 Regions 迁 移 。 

(4) HRegionServer 


HRegionserver 主 要 负责 响应 用 户 I/O 请 求 ， 向 HDFS 文 件 系 统 中 读 写 数据 ， 是 HBase 中 最 核心 的 模块 。HRegionserver 内 部 管理 了 一 系列 HRegion 对 象 ， 每 个 HRegion 对 应 Table 中 的 一 个 
Region，HRegion 由 多 个 HStore 组 成 。 每 个 HStore 对 应 Table 中 的 一 个 Column Family 的 存储 ， 可 以 看 出 每 个 Column Family 其 实 就 是 一 个 集中 的 存储 单元 ， 因 此 最 好 将 具备 相同 IO 特性 的 column 放 在 一 


个 Column Family 中 ， 这 样 最 高 效 。 


HStore 存 储 是 HBase 存 储 的 核心 ， 其 中 由 MemStore 和 StoreFiles 两 部 分 组 成 。MemStore 是 Sorted Memory Buffer， 用 户 写 入 的 数据 首先 会 放 入 MemStore， 当 MemStore 满 了 以 后 会 Flush 成 一 个 
StoreFile (底层 实现 是 HFile) ， 当 StoreFile 文 件数 量 增长 到 一 定 阅 值 时 ， 触 发 Compact 合 并 操作 ， 将 多 个 StoreFiles 合 并 成 一 个 StoreFile， 合 并 过 程 中 会 合并 版 本 和 删除 数据 ， 因 此 可 以 看 出 HBase 其 实 只 
有 增加 数据 ， 所 有 的 更 新 和 删除 操作 都 是 在 后 续 的 compact 过 程 中 进行 的 ， 这 使 得 用 户 的 写 操作 只 要 进入 内 存 中 就 可 以 立即 返回 ,保证 了 HBase I/O 的 高 性 能 。 当 StoreFiles Compact 后 ， 逐 步 形 成 越 来 越 
大 的 StoreFile， 当 单个 StoreFile 大 小 超过 一 定 立 值 后 ， 触 发 Split 操 作 ， 同 时 把 当前 Region Split 成 2 个 Region， 父 Region 下 线 ， 新 Split 出 的 2 个 孩子 Region 被 HMaster 分 配 到 相应 的 HRegionServer 上 ,使 
原先 1 个 Region 的 压力 得 以 分 流 到 2 个 Region 上 。 


每 个 HRegionServer 中 都 有 一 个 HLog 对 象 ，HLog 是 一 个 实现 Write Ahead Log 的 类 ， 在 每 次 用 户 操作 写 入 MemStore 的 同时 ， 也 会 写 一 份 数据 到 HLog 文 件 中 (HLog 文 件 格式 见 后 续 ) ，HLog 文 件 定 
期 会 滚动 出 新 的 ， 并 删除 旧 的 文件 (已 持久 化 到 StoreFile 中 的 数据 ) 。 当 HRegionServer 意 外 终止 后 ，HMaster 通 过 Zookeeper 感 知 到 ，HMaster 首 先 处 理 遗 留 的 HLog 文 件 ， 将 其 中 不 同 Region 的 Log 数 
据 拆 分 ， 分 别 放 到 相应 region 的 目录 下 ， 然 后 将 失效 的 region 重 新 分 配 ， 领 取 到 这 些 region 的 HRegionServer 在 Load Region 的 过 程 中 ， 会 发 现 有 历史 HLog 需 要 处 理 ， 因 此 会 将 HLog 中 的 数据 Replay 到 
MemStore 中 ， 然 后 flush 到 StoreFiles， 完 成 数据 恢复 。 


4.2.2 HBase 与 RDBMS 


HBase 设 计 的 初衷 是 针对 大 数据 进行 随机 地 、 实 时 地 读 写 操 作 。 随 着 互联 网 的 发 展 ， 很 多 企业 的 数据 也 变 得 非常 大 ， 使 用 传统 数据 库 (RDBMS) 处 理 这 些 大 数据 会 非常 棘手 ， 这 时 就 产生 了 类 似 HBase 
之 类 的 NoSQL 数 据 库 。HBase 和 RDBMS 的 对 比如 下 : 


(1) 数据 类 型 
HBase 只 有 简单 的 字符 串 类 型 ， 所 有 的 类 型 都 是 交 由 用 户 自己 处 理 ， 它 只 保存 字符 串 。 而 RDBMS3S 有 丰富 的 类 型 选择 ， 如 数值 类 型 、 字 符 串 类 型 、 时 间 类 型 等 。 
(2) 数据 操作 


HBase 只 有 很 简单 的 插入 、 查 询 、 删 除 、 清 空 等 操作 ， 表 和 表 之 间 是 分 离 的 ， 没 有 复杂 的 表 和 表 之 间 的 关系 ， 所 以 不 能 ， 也 没有 必要 实现 表 和 表 之 间 的 天 联 等 操作 。 而 RDBM 通常 有 各 种 各 样 的 函数 、 
连接 操作 等 ， 表 与 表 之 间 的 关系 也 有 多 种 。 


(3) 存储 模式 

HBase 是 基于 列 存 储 的， 每 个 列 都 由 几 个 文件 保存 ， 不 同 列 的 文件 是 分 离 的 。 而 RDBM 是 基于 表 结构 和 行 模式 保存 的 。 

(4) 数据 维护 

确切 地 说 ，HBase 的 更 新 操作 不 应 该 叫 作 更 新 ， 虽 然 一 个 主键 或 列 对 应 新 的 版 本 ,但 它 的 旧版 本 仍然 会 保留 ， 所 以 它 实际 上 是 插入 了 新 的 数据 ， 而 不 是 RDBMS 中 的 替换 修改 。 

(5) 可 伸缩 性 

因为 HBase 分 布 式 数 据 库 就 是 为 了 此 目的 而 开发 出 来 的 ， 所 以 它 能 够 轻松 地 增加 或 减少 硬件 数量 ， 并 且 对 错误 的 兼容 性 比较 高 。 而 RDBMS 通 常 需 要 增加 中 间 层 才能 实现 类 似 的 功能 。 
(6) 具体 应 用 


RDBMS 具 有 ACID 特性 ， 拥 有 丰富 的 SQL， 还 有 如 下 特点 : 面向 磁盘 存储 、 带 有 索引 结构 、 多 线程 访问 、 基 于 锁 的 同步 访问 机 制 、 基 于 log 记 录 的 恢复 机 制 等 。 而 类 似 HBase 这 些 基 于 列 模式 的 分 布 式 数 
据 库 ， 更 适应 海量 存储 和 互联 网 应 用 的 需求 ， 灵 活 的 分 布 式 架 构 可 以 使 其 利用 廉价 的 硬件 设备 组 建 一 个 大 的 数据 仓库 。 


4.0.3 ”HBase 访 问 接口 


HBase 集 群 访问 可 以 有 多 种 方式 ， 不 同方 式 的 适用 场景 不 同 ，HBase 的 访问 接口 如 下 : 


1.Native Java API 


Native Java API 是 最 常规 和 高 效 的 访问 方式 ， 适 合 Hadoop MapReduce Job 并 行 批 处 理 HBase 表 数据 。 


2.HBase Shell 


HBase Shell 是 HBase 的 命令 行 工具 ， 是 最 简单 的 接口 ， 适 合 HBase 管 理 使 用 。 


3.Thrift Gateway 


Thrift Gateway 利 用 Thrift 序 列 化 技术 ， 支 持 C++、PHP、Python 等 多 种 语言 ， 适 合 其 他 异 构 系统 在 线 访问 HBase 表 数据 。 


4.REST Gateway 


REST Gateway 支 持 REST 风 格 的 Http API 访 问 HBase， 解 除了 语言 限制 。 


5.Pig 


可 以 使 用 Pig Latin 流 式 编程 语言 来 操作 HBase 中 的 数据 ， 其 本 质 是 编译 成 MapReduce Job 来 处 理 HBase 表 数据 ， 适 合 做 数据 统计 。 


6.Hive 


Hive 0.7 版 本 中 添加 了 HBase 的 支持 ， 可 以 使 用 类 似 SQL 的 语言 HQL 来 访问 HBase， 其 本 质 类 似 Pig， 把 脚本 编译 成 MapReduce Job 来 处 理 HBase 表 数据 。 


4.24 ”HBase 数 据 模型 


传统 型 数据 库 以 行 的 形式 存储 数据 ， 每 行 数据 包含 多 列 ， 每 列 只 有 单个 值 。 在 HBase 中 ， 数 据 实际 存储 在 一 个 “映射 ” (map) +, 并且“ 映射 ”的 键 (key) 是 被 排序 的 。 这 里 的 排序 是 很 重要 的 概 
念 ， 基 于 键 排 序 ， 用 户 可 以 自 定 义 一 个 “ 行 键 ” (row key) ， 使 “相关 的 ”数据 可 以 存储 在 相近 的 地 方 。 


HBase 数 据 包含 下 面 几 个 概念 : 

(1) Row key 

一 条 记录 的 唯一 标示 符 。 

(2) Column family 

一 列 数 据 的 集合 的 存储 体 ， 作 为 一 个 列 篮 。 

(3) Column qualifier 

在 列 篮 中 的 每 个 列 数据 的 限定 符 ， 用 于 指明 数据 的 属性 。 

(4) Cell 

实际 存储 的 数据 ， 包 含 数 据 和 时 间 戳 。 

在 HBase 中 定义 表 只 需 设 置 表 名 、 列 篮 即 可 ， 不 用 指定 限定 符 ， 限 定 符 在 数据 存储 到 表 中 时 是 动态 指定 的 。HBase 中 的 数据 存储 类 似 于 Javascript Object (JSON) 类 型 ， 如 代码 清单 4-1 的 数据 。 


代码 清单 4-1 JSON 数 据 


("65": {"info": ("FirstName": "Cary","LastName": "Grant","Street": ["12232 Main St","548 Wall St","7611 Elm St"],"Birthday": "1929-02-21"}"preferences": {"homepage"™: ["movies.F 
} 


代码 清单 4-1 中 的 数据 “65” 可 以 理解 为 HBase 中 的 rowkey，“inof”“preferences” “history” 可 以 理解 为 Column Family (Ff) , “FirstName” “LastName” “Street” "Birthday" %0] 
以 理解 为 Column Qualifier ( 列 限定 符 ) , “Cary” “Grant” 等 就 可 以 理解 为 具体 的 Cell 值 (这 里 需要 注意 HBase 中 的 Cell 中 还 存储 有 时 间 戳 ) 。 


HBase 中 的 数据 存储 是 和 时 间 截 一 起 存储 的 ， 比 如 ， 一 个 Cell 的 数据 存储 ， 其 格式 可 能 如 图 4-2 所 示 。 


"7611 Elm St :48904872 


“548 Wall St’:61103255 


“12232 Main St’:65123987 


图 4-2 ”Cell 数据 存储 格式 


HBase 中 的 数据 存储 并 没有 当前 值 的 概念 ， 可 以 有 “最 新 值 ” 的 概念 ， 最 新 值 是 指 离 当前 时 间 最 近 的 时 间 戳 对 应 的 数据 。 当 从 HBase 中 遍历 CelI 的 数据 时 ， 并 不 是 活 的 当前 值 ， 而 是 获得 所 有 设置 过 的 值 
(附带 一 个 时 间 戳 ) 。 当 对 HBase 进 行 数 据 更 新 时 ， 把 要 更 新 的 值 加 上 时 间 戳 ， 然 后 添加 到 Cell 中 ， 而 之 前 的 值 并 不 会 删 掉 。 


43 ”动手 实践 


按照 4.1.2 章 节 以 及 第 2 章 的 详细 配置 步骤 进行 操作 ， 部 署 完 成 后 ， 即 可 进行 下 面 的 实验 (默认 使 用 Hadoop 2.6 和 HBase1.0.1.1 版 本 ) 。 
实践 一 : HBase Shell 命 令 


1) 进入 HBase Shell。 


[root@master ~]# SHBASE HOME/bin/hbase shel] 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 
Version 1.0.1.1, reldbf4d£30d214fcal4908d£71d038081577ea46, Sun May 17 12:34:26 PDT 2015 


2) 新 建 user 表 。 


hbase (main) :001:0> create 'user', ‘inf 
0 row(s) in 1.2520 seconds 
=> Hbase::Table - user 


3) 导入 user 表 中 的 数据 。 


hbase (main) :002:0> put 'user','001','info:name', 'Tom' 
0 row(s) in 0.1370 seconds 

hbase (main) :003:0> put 'user','001', 'info:age','22' 

0 row(s) in 0.0240 seconds 

hbase (main) :004:0> put 'user','002','info:name', 'Kate' 
0 row(s) in 0.0230 seconds 

hbase (main) :005:0> put 'user','002','info:age'!, '30' 

0 row(s) in 0.0140 seconds 

hbase (main) :006:0> put 'user','003', 'info:name', 'Jack' 
0 row(s) in 0.0120 seconds 

hbase (main) :007:0> put 'user','003', 'info:age','36' 

0 row(s) in 0.0280 seconds 


4) 查看 user 表 中 的 数据 。 


ROW COLUMN+CELL 

001 column=info:age, timestamp=1439433026307, value=22 
001 column=info:name, timestamp=1439433017825, value=Tom 
002 column=info:age, timestamp=1439433043987, value=30 
002 column=info:name, timestamp=1439433037118, value=Kate 
003 column=info:age, timestamp=1439433057189, value=36 
003 column=info:name, timestamp=1439433050416, value=Jack 


3 row(s) in 0.0740 seconds 


5) 查看 user 表 的 描述 。 


hbase (mai 
Table use 


n):009:0» describe 'user' 
r is ENABLED 


user 


COLUMN FAMILIES DESCRIPTION 


'info', BLOOMFILTER => 'ROW', VERSIONS => '1', IN MEMORY => 'false', KEEP 


TS => 'FALSE', DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESS 


(NAME => 
ELETED CE 
N => 'NON 


E', MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPL 


ATION SCOPE => '0'} 


1 row(s) 


in 0.0550 seconds 


6) 删除 user 表 。 


hbase (main) :010:0> disable 'user' 
0 row(s) in 1.2820 seconds 

hbase (main) :011:0> drop 'user' 

0 row(s) in 0.1940 seconds 

hbase (main) :012:0> list 

TABLE 

0 row(s) in 0.0250 seconds 


=> [] 


实践 二 : HBase MapReduce 任 务 


1) 复制 02- 上 机 实验 /user.csv 到 客户 端 机 器 /opt 目 录 下 ， 并 上 传 至 HDFS。 


# hadoop 
# hadoop 
Found 1 i 
-rw-r--r- 


fs -put /opt/user.txt /user/root/user.csv 
fs -1s /user/root/user.csv 


Tems 


- 3 root supergroup 8393 2015-08-13 11:04 /user/root/user.csv 


2) 使 用 H 


hbase (ma 
O row(s) 
—» Hbase: 


Base Shelliré&&userz&, 


in):001:0» create 'user','info' 
in 1.2520 seconds 
:Table - user 


3) 运行 MapReduce 任 务 ， 导 入 数据 。 


Q@@ 生 成 Hfile。 


#export HADOOP CLASSPATH=$HBASE HOME/lib/*:classpath 15/05/29 20:23:00 INFO 
jar SHBASE HOME/lib/hbase-server-1.0.1.1.jar importtsv -Dimporttsv.separator 
="," -Dimporttsv.bulk.output-/user/root/hbase tmp -Dimporttsv.columns-HBASE ROW KEY, 


# hadoop 


info: name, 
15/08/13 


info:age user /user/root/user.csv 


Oxdcfda20 
15/08/13 


connecting to ZooKeeper ensemble=master:2181,slavel:2181,slave2:2181 


6:50 INFO zookeeper.ZooKeeper: Client environment:zookeeper.version-3. 


6:50 INFO zookeeper.RecoverableZooKeeper: Process identifier-hconnection- 


4.6- 


15/08/13 


1569965, EHE on 02/20/2014 09:09 GMT 


15/08/1 


example. com 


16:50 INFO zookeeper.ZooKeeper: Client environment:host.name-master. 


:16:50 INFO zookeeper.ZooKeeper: Client environmen 


15/08/1 


15/08/11 


Rm bos 


:java.version-1.7.0 75 


environmen! 


1.7.0-openjdk-1.7.0.75.x86- 64/jre 
1 1:16:50 INFO zookeeper.ZooKeeper: Client environment:java.class.path-/opt/hadoop 


:16:50 INFO zookeeper.ZooKeeper: Clien! 


-2.6.0/et 


:16:50 INFO zookeeper.ZooKeeper: Client environment:java.vendor-Oracle Corporation 
t t:java.home=/usr/lib/jvm/java- 


c/hadoop: /opt/hadoop-2.6. 0/share/hadoop/common/1ib/109g4j-1.2.17.jar:/opt/ha 
doop-2.6. 0/share/hadoop/common/1ib/paranamer- 2.3.jar:/opt/hadoop-2.6.0/share/hadoop/common/1ib/ 
commons-logging-1.1.3.jar:/opt/hadoop-2.6.0/share/hadoop/common/1ib/asm-3. 


2.jarc-- 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:java.library.path-/opt/ha 
doop-2.6.0/1ib/native 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:java.io.tmpdir-/tmp 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:java.compiler-«NA» 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:os.name-Linux 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:os.arch-amd64 

5/08/13 1 6:50 INFO zookeeper.ZooKeeper: Client environment:os.version-2.6.32-504.e16. 
x86 64 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:user.name-root 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:user.home-/root 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Client environment:user.dir-/root 

5/08/13 11:16:50 INFO zookeeper.ZooKeeper: Initiating client connection, connectString- 
master:2181 sessionTimeout-90000 watcher-hconnection-0xdcfda200x0, quorum=master:2181, 
baseZNode-/hbase 

5/08/13 11:16:50 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/ 

27.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error) 

5/08/13 11:16:50 INFO zookeeper.ClientCnxn: Socket connection established to localhost/127. 
0.0.1:2181, initiating session 

5/08/13 11:16:50 INFO zookeeper.ClientCnxn: Session establishment complete on server local 
host/127.0.0.1:2181, sessionid = 0x14f2495fb0f000c, negotiated timeout = 90000 

5/08/13 11:16:52 INFO mapreduce.HFileOutputFormat2: Looking up current regions for table user 

5/08/13 11:16:52 INFO mapreduce.HFileOutputFormat2: Configuring 1 reduce partitions to match 


current =a count 


1439427807631 0002/ 


e 


LE: Number of bytes read-42188 

i: bytes written-356921 
read operations=0 
large read operations-0 
write operations=0 
bytes read-8496 


Fh FH FH Fh Ft 


15/08/13 6:52 INFO mapreduce.HFileOutputFormat2: Writing partition information to /tmp/ 

hadoop-root/partitions_aa02a3fe~23be-40a6-844f-cd2d64a38e92 

15/08/13 6:52 INFO compress.CodecPool: Got brand-new compressor [.deflate] 

15/08/13 11:18:52 INFO mapreduce.HFileOutputFormat2: Incremental table user output con- 
figured. 

15/08/13 11:16:52 INFO client.ConnectionManager$HConnectionImplementation: Closing master 

protocol: MasterService 

15/08/13 11:16:52 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeep- 

er sessionid=0x14f2495fb0f000c 

15/08/13 11:16:52 INFO zookeeper.ZooKeeper: Session: 0x14f2495fb0f000c closed 

15/08/13 11:16:52 INFO zookeeper.ClientCnxn: EventThread shut down 

15/08/13 11:16:53 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222. 
131:8032 

15/08/13 11:16:55 INFO input.FileInputFormat: Total input paths to process : 1 

15/08/13 11:16:55 INFO mapreduce.JobSubmitter: number of splits:1 

15/08/13 11:16:55 INFO Configuration.deprecation: io.bytes.per.checksum is deprecated. In- 
stead, use dfs.bytes-per-checksum 

15/08/13 11:16:55 INFO mapreduce.JobSubmitter: Submitting tokens for job: job 1439427807631 0002 
15/08/13 1 6:56 INFO impl.YarnClientImpl: Submitted application application 1439427807631 
0002 

15/08/1 :16:56 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/ap- 


fully 


3j 
plication = 

5/08/13 11:1 - 56 INFO mapreduce.Job: Running job: job 1439427807631 0002 

15/08/13 11:17:11 INFO mapreduce.Job: Job job 1439427807631 0002 running in uber mode : false 
15/08/13 1 7 INFO mapreduce.Job:map 0% reduce 0% 

5/08/13 1 7:19 INFO mapreduce.Job:map 100% reduce 0% 

5/08/13 1 7:29 INFO mapreduce.Job:map 100% reduce 100% 

5/08/13 11:17:29 INFO mapreduce.Job: Job job 1439427807631 0002 completed success 

5/08/13 11:17:29 INFO mapreduce.Job: Counters: 50 

E 


HDFS: Number of bytes written=44391 

HDFS: Number of read operations=8 

HDFS: Number of large read operations=0 

HDFS: Number of write operations=3 
Job Counters 

Launched map tasks=1 

Launched reduce tasks=1 

Data-local map tasks=1 

Total time spent by all maps in occupied slots (ms)=5813 

Total time spent by all reduces in occupied slots (ms)=11916 

Total time spent by all map tasks (ms)=5813 

Total time spent by all reduce tasks (ms)=5958 

Total vcore-seconds taken by all map tasks=5813 

Total vcore-seconds taken by all reduce tasks=5958 

Total megabyte-seconds taken by all map tasks=5952512 

Total megabyte-seconds taken by all reduce tasks=7888392 
Map-Reduce Framework 

Map input records=538 

Map output records=538 

Map output bytes=41106 

Map output materialized bytes=42188 

Input split bytes=103 


Combine input records=538 

Combine output records=538 

Reduce input groups=538 

Reduce shuffle bytes=42188 

Reduce input records=538 

Reduce output records=1076 

Spilled epu 1076 

Shuffled Maps - 

Failed RA o 

Merged Map outputs-1 

GC time elapsed (ms)-241 

time spent (ms)=4890 
Physical memory (bytes) snapshot=476753920 
Virtual memory (bytes) snapshot=5710151680 
Total committed heap usage (bytes)-384303104 

ImportTsv 


Shuffle E 


WRONG LENGTH-0 


WRONG REDUCE=0 

I Format Counters 
Read-8393 

Format Counters 
Written-44391 


File Output 


查看 HDFS， 即 可 看 到 生成 的 HFile: 


# hadoop fs -ls -R /user/root/hbase tmp 

-rw-r--r-- 3 root supergroup0 2015-08-13 11:17 /user/root/hbase tmp/ SUCCESS 

drwxr-xr-x - root supergroup 0 2015-08-13 11:17 /user/root/hbase tmp/info 

-rw-r--r-- 3 root supergroup 44391 2015-08-13 11:17 /user/root/hbase tmp/info/ 
e8cf8alac70d40e2a985711dfb678cdd 


@ 将 HFile 数 据 导入 user 表 中 。 


# hadoop jar SHBASE HOME/lib/hbase-server-1. 


0.1.1.jar completebulkload /user/root/hbase tmp user 


15/08/13 :29:02 INFO zookeeper.RecoverableZooKeeper: Process identifier=hconnection-0x5ed731d0 connecting to ZooKeeper ensemble=master:2181,slavel:2181,slave2:218] 
15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:zookeeper.version-3.4.6-1569965, built on 02/20/2014 09:09 GMT 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:host.name-master.example.com 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java.version-1.7.0 75 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java.vendor-Oracle Corporation 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java.home-/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.75.x86 64/jre 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java.class.path-/opt/hadoop-2.6. 0/etc/hadoop: /opt/hadoop-2.6.0/share/hadoop/common/1ib/10g4j-1.2.17.jar:/opt/hadc 
:/opt/hbase-1.0.1.1/1lib/hbase-thrift-1.0.1.1 .jar:classpath:/opt/hadoop- 2.6.0/contrib/capacity-scheduler/*.jar 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java. library. path-/opt/hadoop-2.6.0/1ib/native 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java.io.tmpdir-/tmp 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:java.compiler-«NA» 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:os.name-Linux 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:os.arch-amd64 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:os.version-2.6.32-504.e16.x86 64 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:user.name-root 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:user.home-/root 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Client environment:user.dir-/root 

15/08/13 11:29:02 INFO zookeeper.ZooKeeper: Initiating client connection, connectString=master:2181 sessionTimeout-90000 watcher-hconnection-0x5ed731d00x0, quorum=master:2181, 
15/08/13 11:29:02 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1: 2181. Will not attempt to authenticate using SASL (unknown error) 
15/08/13 11:29:02 INFO zookeeper.ClientCnxn: Socket connection established to localhost/127.0.0.1:2181, initiating session 

15/08/13 11:29:02 INFO zookeeper.ClientCnxn: Session establishment complete on server localhost/127.0. 0. :2181, sessionid = Ox14f2495fb0f000f, negotiated timeout = 90000 
15/08/13 11:29:03 INFO zookeeper.RecoverableZooKeeper: Process identifier=hconnection-0x4beel8dc connecting to ZooKeeper ensemble-localhost:2181 

15/08/13 11:29:03 INFO zookeeper.ZooKeeper: Initiating client connection, connectString-master: 2181 sessionTimeout-90000 watcher-hconnection-0x4beel8dcO0x0, quorum=master:2181, 
15/08/13 11:29:03 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/127. 0.0.1: 2181. Will not attempt to authenticate using SASL (unknown error) 
15/08/13 11:29:03 INFO zookeeper.ClientCnxn: Socket connection established to localhost/127.0.0.1:2181, initiating session 

15/08/13 11:29:03 INFO zookeeper.ClientCnxn: Session establishment complete on server localhost/127.0. 0. :2181, sessionid = 0x14f2495fb0f0010, negotiated timeout = 90000 
15/08/13 11:29:04 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://master:8020/user/root/hbase tmp/ SUCCESS 

15/08/13 11:29:04 INFO hfile. CacheConfig: CacheConfig:disabled 

15/08/13 11:29:04 INFO m mapreduce . ] oadiIncrementalHFiles: Trying to load hfile-hdfs://master:8020/user/root/hbase tmp/info/e8cf8alac70d40e22985711dfb678cdd first=1 last=rowkey 
15/08/13 11:29:05 INFO client.ConnectionManager$HConnectionImplementation: Closing master protocol: MasterService 

15/08/13 11:29:05 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeeper sessionid-0x14f2495fb0f0010 

15/08/13 11:29:05 INFO zookeeper.ZooKeeper: Session: 0x14f2495fb0f0010 closed 

15/08/13 11:29:05 INFO zookeeper.ClientCnxn: EventThread shut down 


4) 查看 HBase 中 user 表 的 数据 。 


:007:0»scan'user' 
Fo:age timestamp-1439435809424, value-57 


hbase (main) 
99column-in!j 


99 column-info:name, timestamp-1439435809424, value-user99 
rowkey column-info:age, timestamp-1439435809424, value-age 
rowkey column-info:name, timestamp-1439435809424, value-name 

538 row(s) in 2.2050 seconds 


AA Jg 

本 章 先 介绍 大 数据 数据 库 HBase 的 基础 概念 ， 接 着 ， 详 细 介绍 了 使 用 VMware 虚拟 机 搭建 分 布 式 HBase 集 群 环境 的 步骤 ， 
后 ， 分 析 了 HBase 的 原理 ， 主 要 包括 HBase 和 传统 数据 库 的 对 比 、 访 问 接口 、 数 据 模 
详细 设计 的 实验 ， 使 读者 动手 实践 ， 加 深 对 原理 的 认识 和 理解 。 


使 读者 可 以 根据 搭建 步骤 一 步 步 搭建 自己 的 集群 ， 方 便 后 面 的 学 习 实验 
型 。 最 后 ， 结 合 HBase 的 架构 图 介绍 HBase 的 各 个 模块 组 件 ， 包 括 HMaster、 


然 


HRegionServer、ZooKeeper。 最 后 通过 


第 5 草 ”大 数据 挖掘 建 模 平台 


企业 进行 大 数据 挖掘 建 模 需要 基础 平台 ， 目 前 ， 大 数据 平台 有 多 种 ， 同 时 不 同 厂 商 提供 的 发 行 版 也 有 不 同 的 地 方 。 本 章 首先 介绍 常用 的 大 数据 平台 ， 并 重点 介绍 开源 的 TipDM-HB 大 数据 挖掘 建 模 平 
台 。 接 着 ， 分 析 TipDM -HB 大 数据 挖掘 建 模 平 台 的 功能 及 使 用 实例 ， 为 后 面 章节 采用 TipDM-HB 大 数据 挖掘 建 模 平 台 进行 实验 提供 基础 。 


5.1 ”常用 的 大 数据 平台 


CDH (Cloudera Distribution including Apache Hadoop) ， 是 Cloudera 公 司 的 开源 Apache Hadoop 发 行 版 ， 面 向 Hadoop 企 业 级 部 署 。CDH 是 经 过 Apache 许 可 的 100% 开 源 项 目 ， 而 且 是 唯一 一 
个 统一 了 批 处 理 、 交 互 式 SQL、 交 互 式 搜索 和 基于 角色 的 访问 控制 的 Hadoop 解 决 方案 。CDH 也 不 只 提供 了 Hadoop 的 核心 组 件 : 可 扩展 存储 与 分 布 式 计算 以 及 用 户 界 面 等 其 他 附加 组 件 ， 还 提供 了 必要 的 
企业 功能 (如 安全 ) ， 以 及 与 各 种 硬件 、 软 件 解决 方案 的 集成 。CDH 包 含 Apache Hadoop 的 核心 组 件 以 及 其 他 几 个 关键 开源 项 目 ， 通 过 Cloudera Enterprise 订 阅 与 客户 支持 、 管 理 和 治理 相 结 合 后 ， 可 区 
付 Enterprise Data Hub。 


HDP (HortonWorks Data Platform) 是 Hortonworks 公 司 发 布 的 大 数据 处 理 平台 。HDP 完 全 在 开源 的 环境 下 设计 、 开 发 和 构建 ， 提 供 企业 可 用 的 数据 平台 ， 让 组 织 能 够 采用 现代 化 的 数据 架构 。 
HDP 的 核心 组 件 为 YARN 和 HDFS (Hadoop Distributed Filesystem) 。YARN 是 Hadoop 的 架构 中 心 ， 可 让 用 户 同时 以 多 种 方式 处 理 数 据 。YARN 提 供 资源 管理 和 可 插 拔 架构 ， 以 支持 广泛 的 数据 访问 方 
法 。HDFs 为 大 数据 提供 可 扩展 、 容 错 、 有 具有 成 本 效益 的 存储 。YARN 为 各 种 处 理 引 擎 提供 基础 ， 让 用 户 能 够 同时 以 多 种 方式 与 数据 交互 。 这 意味 着 应 用 程序 能 够 以 最 佳 方式 和 数据 交互 : 从 批量 到 交互 式 
SQL 或 使 用 NosQL 的 低 延 迟 访问 。Apache Spark、solr 和 Storm 还 支持 数据 科技 、 搜 索 和 流 媒 体 的 新 兴 使 用 案例 。 此 外 ， 生 态 系统 合作 伙伴 为 YARN 提 供 更 加 专门 化 的 数据 访问 引擎 。 


IBM 开 发 的 企业 级 大 数据 和 分 析 平 台 一 一 Watson Foundations, Watson Foundations 在 原 有 的 IBM 大 数据 平台 上 进行 了 至 关 重 要 的 提升 。 其 最 为 显著 的 增强 特性 包括 : 能 够 基于 SoftLayer 部 署 ， 将 
IBM 大 数据 分 析 能 力 升 至 云端 ; 将 IBM 独 有 的 大 数据 整合 及 治理 能 力 延 展 至 社交 、 移 动 和 云 计 算 等 领域 ,让 企业 能 够 利用 Watson 分 析 技 术 快 速 、 独 立地 发 据 新 洞察 。 作 为 IBM 大 数据 与 分 析 领 域 的 一 大 技术 
创新 ，Watson Foundations 将 帮助 企业 实现 阶段 性 的 大 数据 能 力 部 署 ， 为 企业 打造 迈 入 认 知 计算 的 通途 。 


开源 大 数据 挖掘 平台 TipDM-HB 是 广州 TipDM 团 队 花 费 数 年 时 间 自 主 研 发 的 一 个 大 数据 挖 气 平台， 基于 云 计算 和 SOA 架 构 ， 使 用 Java 语 言 开 发 ， 能 从 各 种 数据 源 获取 数据 ， 建 立 各 种 不 同 的 数据 挖掘 模 
型 。 系 统 支 持 数据 挖掘 流程 所 需 的 主要 过 程 ， 并 提供 开放 的 应 用 接口 和 常用 算法 ， 能 够 满足 各 种 复杂 的 应 用 需求 。2010 年 年 初 ，TipDM-HB 通 过 了 由 广州 赛 宝 软件 评测 中 心 的 功能 和 性 能 测试 。 现 产品 在 广 
大 科研 院 所 及 企业 成 功 试用 ， 受 到 用 户 的 赞许 与 肯定 。 


5.2 TipDM-HB 大 数据 挖掘 建 异 平台 


大 数据 挖掘 建 模 平 台 TipDM-HB 以 智能 预测 技术 为 核心 ， 并 提供 开放 的 应 用 接口 。 因 为 TipDM-HB 的 底层 算法 主要 基于 Mahout 等 通过 封装 形成 ， 所 以 建 模 输出 结果 与 这 几 个 大 数据 算法 包 的 输出 类 
同 。 在 使 用 过 程 中 ， 用 户 也 可 以 嵌入 自己 开发 的 其 他 任何 算法 。 


5.2.1 TipDM-HB 大 数据 挖掘 建 模 平台 的 功能 


大 数据 挖掘 建 模 平 台 TipDM-HB 的 主要 功能 包括 调度 系统 、 主 机 上 监控 系统 、 云 平台 监控 和 云 数 据 挖掘 引 敬 。 其 中 云 数据 挖掘 引擎 主要 有 : 云 聚 类 算法 引擎 、 云 分 类 算法 引擎 、 云 关联 规则 算法 引擎 和 云 
智能 推荐 算法 引擎 。 


分 类 是 数据 挖掘 中 应 用 最 多 的 方法 。 分 类 就 是 找 出 一 个 类 别 的 概念 描述 ， 它 代表 这 类 数据 的 整体 信息 ， 即 该 类 的 内 涵 描 述 ， 并 用 这 种 描述 来 构造 模型 ， 一 般 用 规则 或 决策 树 模式 表示 。 分 类 是 利用 训练 
数据 集 通过 一 定 的 算法 求 得 分 类 规则 。 分 类 可 用 于 规则 描述 和 预测 。TipDM-HB 大 数据 挖掘 建 模 平台 提供 的 主要 分 类 算法 见 表 5-1。 


表 5-1 分 类 算法 
D 算法 描述 


在 贝 叶 斯 方法 中 ， 由 于 全 联合 概率 公式 假设 所 有 变量 之 间 都 具有 条 件 依赖 性 ， 其 计算 复杂 
朴素 贝 叶 斯 网 络 | 性 十 分 巨大 ， 而 且 为 每 个 原子 事件 指定 概率 既 不 自然 ， 也 相当 困难 ， 所 以 ， 在 实际 应 用 中 
BARAT ACI. ARNIE (Naive Bayes) 分 类 胡 了 吏 是 经 向 使 用 的 一 种 简化 方法 


算法 名 称 算法 描述 


摧 叶 斯 网 络 是 一 种 用 以 表示 变量 之 间 依 趟 关系 的 概率 图 模型 (Directed Probabilestic Graphical 
Model) ， 它 提供 了 一 种 目 然 而 义 有 效 的 因 来 天 系 表达 和 推理 方法 ， 以 发 现 数据 间 存 在 的 相关 
性 和 依赖 关系 。 贝 叶 斯 网络 用 图 的 方法 来 指 述 数据 间 的 因果 关系 ,语义 清晰 ， 可 理解 性 强 ， 
这 有 助 于 人 们 利用 数据 间 的 因果 关系 来 进行 推理 和 预测 


贝 叶 斯 信念 网 络 


在 机 咒 学 习 中 ， 随 机 森林 是 一 个 包含 多 个 决策 树 的 分 类 郑 ， 并 且 其 输出 的 类 别 由 个 别 树 输 
出 类 别 的 俯 数 而 定 。Leo Breiman 和 Adele Cutler 推论 出 随机 和 森林 的 算法 。Random Forests 是 他 们 
的 商标 。 这 个 术语 是 1995 年 由 贝尔 实验 室 的 Tin Kam Ho 所 提出 的 。 这 个 方法 是 结合 Breimans 
的 Bootstrap aggregating #4 £41] Ho 的 random subspace method 以 建造 决策 树 的 集合 


随机 森林 


K 最 近邻 〈k- Nearest Neighbor, KNN) 分 类 算法 ， 是 一 个 理论 上 比较 成 熟 的 方法 ， 也 是 最 简 
单 的 机 青学 习 算法 之 一 。KNN 方法 主要 菲 周围 有 限 的 邻近 的 样本 ， 而 不 是 菲 判 别 类 域 的 方法 
来 确定 所 属 类 别 的 ， 因 此 对 于 类 域 的 交叉 或 重要 较 多 的 待 分 样本 集 来 说 ，KNN 方法 较 其 他 广 
法 更 为 适合 


K- 最 近邻 分 类 


2. 云 聚 类 算法 引擎 


聚 类 是 把 数据 按照 相似 性 归纳 成 若干 类 别 ， 同 一 类 中 的 数据 彼此 相似 ， 不 同类 中 的 数据 相 异 。 聚 类 分 析 可 以 建立 宏观 的 概念 ， 发 现 数据 的 分 布 模式 ， 以 及 可 能 的 数据 属性 之 间 的 相互 关系 。TipDM-HB 
平台 提供 的 主要 聚 类 分 析 算法 见 表 5-2。 


A52 聚 类 分 析 算 法 
= 算法 描述 
Mac Queen 提出 的 一 种 非 监督 实时 聚 类 算法 ， 在 最 小 化 误差 函数 的 基础 上 ， 将 数据 
划分 为 预定 的 类 数 K 
Dempster, Laind, Rubin 提出 的 求 参 数 极 大 似 然 估计 的 一 种 方法 ， 可 以 从 非 完整 数 
据 集中 对 参数 进行 MLE 合计 


根据 对 象 周 围 的 密度 不 断 增 长 聚 类 ,能 从 会 有 噪声 的 空间 数据 库 中 发 现任 意 形状 的 
REE 

对 给 定 的 数据 集合 进行 层次 分 解 ， 根 据 层次 的 分 解 如 何 形成 ， 可 分 为 凝聚 法 (也 称 
AS) EAE) 和 分 裂 法 (也 称 为 从 上 癌 下 方法 ) 


K-Means 聚 类 


Canopy #226 


Fuzzy K- Means n AS 


Mean Shift #228 


3. 云 天 联 规则 算法 引擎 

关联 规则 挖掘 是 由 Rakesh Apwal 等 人 首先 提出 的 。 两 个 或 两 个 以 上 变量 的 取 值 之 间 存 在 某 种 规律 性 ， 就 称 为 天 联 。 数 据 关联 是 数据 库 中 存在 的 一 类 重要 的 、 可 被 发 现 的 知识 。 关 联 分 为 简单 关联 、 时 序 
关联 和 因果 关联 。 关 联 分 析 的 目的 是 找 出 数据 库 中 隐藏 的 天 联网 。 一 般 用 支持 度 和 可 信 度 两 个 靖 值 来 度量 关联 规则 的 相关 性 ， 还 不 断 引 入 兴趣 度 、 相 关 性 等 参数 ， 使 挖掘 的 规则 更 符合 需求 。 

TipDM-HB 大 数据 挖掘 建 模 平台 提供 的 主要 关联 分 析 算 法 如 表 5-3 所 示 。 


表 5-3 关联 规则 算法 
算法 名 称 算法 描述 


一 种 不 产生 候选 模式 而 采用 频繁 模式 增长 的 方法 挖掘 频繁 模式 的 算法 。 此 算法 只 需要 扫 
描 2 次 数据 库 : 第 一 次 扫描 数据 库 得 到 一 维 频繁 项 集 ; 第 二 次 扫描 数据 库 是 利用 一 维 频繁 项 
集 过 滤 数据 库 中 的 非 频 繁 项 ， 同 时 生成 FP 树 。 由 于 FP 树 蕴涵 了 所 有 的 频繁 项 集 ， 其 后 的 
频繁 项 集 的 挖掘 只 需要 在 FP 树 上 进行 。FP 树 控 据 由 两 个 阶段 组 成 : 第 一 阶段 建立 FP 树 ， 
即将 数据 库 中 的 事务 构造 成 一 棵 FP 树 ; 第 二 阶段 为 挖掘 FP 树 ， 即 针对 FP 树 挖掘 频繁 模式 
和 关联 规则 


FP- Crowth 关联 规则 


4. 云 智能 推荐 算法 引擎 


协同 过 滤 是 信息 过 滤 和 推荐 系统 领域 研究 最 多 的 算法 之 一 。 由 于 用 户 的 兴趣 不 是 孤立 的 ， 用 户 处 于 群体 之 中 ， 所 以 用 户 的 兴趣 可 以 通过 群体 中 与 他 有 相似 行为 的 用 户 的 兴趣 来 推测 ， 这 有 点 类 似 于 现实 
生活 中 的 朋友 推荐 。 


目前 TipDM-HB 大 数据 挖掘 建 模 平 台 主要 包括 的 推荐 算法 如 表 5-4 所 示 。 


表 5-4 推荐 算法 
算法 名 称 算法 描述 


基于 内 和 存 的 协同 过 滤 推 茬 算法 按照 相似 度 比 较 对 象 的 不 同 又 可 分 为 基于 用 户 和 基于 
基于 内 存 的 协同 过 滤 ”| 项 目 两 种 ， 但 基于 用 户 的 协同 过 滤 随 看 用 户 数 的 增加 ， 计 算 的 复杂 度 会 越 来 越 大 ， 
此 基于 项 目的 协同 过 滤 应 用 相对 较 多 


基于 模型 的 协同 过 滤 推 荐 算法 不 是 基于 局 发 式 规则 预测 用 尸 对 项 目的 评分 ， 而 是 基 
于 对 已 有 数据 采用 统计 和 机 带 学 习 的 方法 建立 模型 ， 利 用 建立 好 的 模型 进行 预测 评分 。 
基于 网 络 结构 的 推荐 算法 不 考虑 用 户 和 项 目的 内 容 特 征 信 息 ， 而 把 它们 看 作 抽 象 的 节 
尽 ， 所 有 的 算法 信息 均 隐 泸 在 用 户 和 项 目的 选择 关系 中 


基于 模型 的 协同 过 滤 


5.2.2 TipDM-HB 大 数据 挖掘 建 模 平台 操作 流程 及 实例 


TipDM-HB 大 数据 挖 扬 建 模 平台 总 体操 作 流 程 如 图 5-1 所 示 。 


用 户 首先 进行 方案 管理 ， 即 新 建 方 案 或 者 打开 已 有 方案 ， 可 以 编辑 修改 方案 名 称 或 者 方案 描述 。 接 着 ， 通 过 数据 管理 来 加 载 或 者 查看 数据 ， 这 里 包括 两 种 方式 : 使 用 网 页 上 传 的 方式 和 使 用 FTP 文 件 上 
传 的 方式 。 针 对 企业 数据 一 般 使 用 FTP 文 件 上 传 的 方式 ， 演 示 则 使 用 两 种 都 可 以 。 上 传 数据 后 ， 点 击 刷新 ， 可 看 到 上 传 的 数据 ， 主 要 包括 数据 文件 列表 以 及 总 文件 个 数 和 大 小 信息 ， 点 击 每 个 文件 ， 可 看 到 
文件 的 数据 。 接 着 ， 进 行 挖掘 建 模 ， 选 择 适 合 的 模型 ， 调 节 参 数 ， 即 可 提交 任务 到 云 平台 进 行 计算 ， 计 算 完 成 后 ， 模 型 存储 在 云 平台 。 然 后 ， 使 用 测试 数据 对 建立 好 的 模型 进行 测试 、 评 估 ， 判 断 模型 能 否 
达到 预期 的 标准 ， 如 果 能 ， 则 直接 应 用 ; 否则 需要 调 优 模型 参数 ， 再 次 验证 。 


下 面 通过 实例 来 演示 如 何 使 用 平台 。 


这 里 引入 航空 公司 客户 价值 分 析 的 案例 。 经 过 预 处 理 和 属性 变换 ， 可 以 得 到 客户 有 价值 的 信息 ， 针 对 客户 有 价值 的 信息 进行 聚 类 ， 得 到 不 同 价值 的 客户 群 ， 针 对 不 同 的 客户 群 进行 精准 营销 。 处 理 后 的 
数据 如 表 5-5 所 示 。 


打 
开 
已 
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图 5-1 TipDM-HB 总 体操 作 流 程 


表 5-5 航空 公司 客户 数据 处 理 后 结果 集 


101 1. 690 0. 140 一 0. 636 0. 069 —Q. 337 1. 690 
102 1. 690 0. 852 0. 844 一 0. 554 1. 690 
io Lem | -o4 -oan YT 


数据 详 见 : 01- 示 例 数据 /客户 数据 .txt 
(1) 创建 /打开 方案 
用 户 登 录 后 ， 默 认 进 入 方案 主 界面 。TipDM-HB 人 允许 用 户 创建 一 个 新 的 数据 挖掘 方案 ， 也 可 以 打开 一 个 已 有 的 数据 挖掘 方案 。 选 择 某 个 应 用 类 别 ， 并 单 击 “ 创 建 ” 按 钮 ， 弹 出 创建 新 方案 对 话 框 。 


输入 方案 名 称 、 方 案 摘 述 ， 并 选择 应 用 类 别 后 ， 单 击 “ 确 定 ”保存 方案 。 双 击 “最 近 方 案 ” 列 表 中 的 某 条 记录 ， 即 可 打开 选中 方案 ， 用 户 可 以 对 当前 方案 进行 编辑 。 也 可 以 单 击 “ 更 多 ”按钮 ， 从 弹出 
对 话 框 中 选中 一 条 记录 ， 作 为 当前 方案 。 


(2) 在 方案 中 加 载 数据 

在 方案 中 加 载 数据 有 两 种 方式 ， 网 页 上 传 和 FTP 上 传 ， 根 据 需求 选择 即 可 。 

(3) 选择 算法 模型 

针对 当前 方案 的 应 用 类 别 ， 可 选择 菜单 中 的 不 同 数据 挖掘 算法 进行 预测 建 模 ， 这 里 选择 云 聚 类 算法 。 
(4) 模型 建 模 

利用 云 聚 类 算法 建 模 的 步骤 如 下 。 


1) 导入 数据 : 导入 当前 方案 中 的 全 部 或 部 分 数据 作为 建 模 样本 ; 


2) 参数 设置 : 设置 模型 训练 参数 ， 


3) 模型 训练 : 设置 完 参数 后 ， 即 可 进行 模型 训练 ，; 


4) 发 布 模型 : 可 对 训练 好 的 模型 进行 发 布 ， 供 其 他 软件 调用 。 


5.2.3 TipDM-HB 大 数据 挖掘 建 模 平台 的 特点 


1. 支 持 CRISP-DM 数 据 挖 掘 标准 流程 


CRISP-DM 是 数据 挖掘 的 标准 商业 流程 ， 与 仅仅 局 限 在 技术 层面 上 的 数据 挖掘 方法 论 不 同 ，CRISP-DM 把 数据 挖掘 看 作 一 个 商业 过 程 ， 并 将 其 具体 的 商业 目标 映射 为 数据 挖掘 目标 。 有 调查 结果 显示 。 
目前 绝 大 部 分 数据 挖掘 工具 均 采用 CRISP-DM 的 数据 挖掘 流程 ， 它 已 经 成 为 事实 上 的 行业 标准 。 


TipDM-HB 完 全 支持 CRISP-DM 标 准 ， 这 不 但 规避 了 许多 常规 错误 ， 而 且 其 显著 的 智能 预测 模型 有 助 于 快速 解决 出 现 的 问题 。 
2 .提供 灵活 多 样 的 应 用 开发 接口 


TipDM-HB 提 供 一 套 基于 行业 标准 的 编程 接口 及 常用 的 数据 挖掘 算法 。 它 可 用 于 开发 各 类 数据 挖掘 应 用 程序 ， 从 简单 的 预测 建 模 到 庞大 的 集成 系统 。 数 据 引擎 可 由 JDBC 和 XML 访问 分 析 行 业 标准 数据 挖 
掘 APl。 


TipDM-HB 提 供 Web Service、DLL 和 JAR 三 种 应 用 开发 接口 ,方便 第 三 方 软件 商 集 成 开发 ， 快 速 构 建 出 大 型 企业 级 海量 数据 挖掘 应 用 系统 。 
3. 海 量 数据 的 处 理 能 


TipDM-HB 是 在 云 计算 平台 分 布 式 文件 系统 HDFS、 并 行 计算 框架 MapReduce 和 MPP 数 据 仓库 基础 上 搭建 的 。 由 于 架构 在 云 计 算 平台 之 上 ， 因 此 TipDM-HB 克 服 了 传统 工具 的 问题 ， 能 够 处 理 TB 级 的 
海量 数据 挖掘 ， 具 备 了 双向 扩展 、 高 容错 性 、 易 于 部 署 等 特点 。 云 数据 挖掘 平台 的 结构 如 图 5-2 所 示 。 


去 数据 按 掘 平 台 


挖 握 主 题 


. BWER 
能 诊断 

. 异常 用 电 
智能 诊断 
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行为 分 析 
. 用 电 优 化 
. 供电 优化 
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图 5-2 云 数据 挖掘 平台 的 结构 


TipDM-HB 具 有 并 行 、 多 线程 处 理 能 力 ， 并 能 提供 优化 机 制 ， 以 保障 在 海量 数据 和 大 规模 计算 时 的 性 能 。 
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本 章 主要 介绍 了 多 种 大 数据 挖掘 平台 的 特点 。 接 着 ， 引 入 大 数据 挖掘 建 模 平台 TipDM-HB， 重 点 介绍 了 平台 功能 、 平 台 特 点 、 操 作 流 程 ， 同 时 给 出 了 实例 ， 方 便 读 者 动手 操作 ， 加 深 理 解 。TipDM-HB 
提供 了 数 十 种 常用 算法 及 函数 ， 调 用 其 能 完成 一 系列 功能 ， 实 现 海量 数据 挖掘 算法 MapReduce 化 ， 以 提高 对 海量 数据 的 处 理 能 力 。 在 工具 包 实 现 中 ， 强 调 与 Hadoop 平 台 的 交互 式 配置 ， 迭 代 / 非 欠 代 类 才 
据 挖 掘 算法 的 并 行 化 实现 。 同 时 ， 大 数据 挖掘 建 模 平台 TipDM-HB 在 数据 挖掘 云 服务 中 ， 为 使 海量 数据 挖掘 应 用 服务 化 ， 提 供 从 Hadoop 资 源 分 配 到 目录 服务 ， 再 到 流 管理 等 一 系列 的 组 件 服务 ， 继 而 提高 
海量 数据 挖掘 软件 的 服务 能 力 。 


第 6 章 ”挖掘 建 模 


经 过 数据 探索 与 数据 预 处 理 ， 得 到 了 可 以 直接 建 模 的 数据 。 根 据 挖 掘 目标 和 数据 形式 可 以 建立 分 类 与 预测 、 聚 类 分 析 、 关 联 规则 、 智 能 推荐 等 模型 ， 帮 助 企业 提取 数据 中 列 含 的 商业 价值 ， 提 高 企业 的 
785873. 


餐饮 企业 经 常会 碰 到 下 面 的 问题 : 

1) 如 何 预测 未 来 一 段 时 间 内 ， 哪 些 顾客 会 流失 ， 哪 些 顾 客 最 有 可 能 会 成 为 VIP 客户 ? 

2) 如 何 预测 一 种 新 产品 的 销售 量 ， 以 及 在 哪 种 类 型 的 客户 中 会 较 受 欢迎 ? 

除 此 之 外 ， 餐 厅 经 理 需 要 通过 数据 分 析 来 了 解 具有 某 些 特征 的 顾客 的 消费 习惯 ; 餐饮 企业 老板 希望 知道 下 个 月 的 销售 收入 ， 原 材料 采购 需要 投入 多 少 ， 这 些 都 是 分 类 与 预测 的 例子 。 


分 类 和 预测 是 预测 问题 的 两 种 主要 类 型 ， 分 类 主要 是 预测 分 类 标号 (离散 属性 ) ， 而 预测 主要 是 建立 连续 值 浮 数 模型 ， 预 测 给 定 自 变量 对 应 的 因 变量 的 值 。 


分 类 是 构造 一 个 分 类 模型 ， 输 入 样本 的 属性 值 ， 输 出 对 应 的 类 别 ， 将 每 个 样本 映射 到 预先 定义 好 的 类 别 。 


因为 分 类 模型 建立 在 已 有 类 标记 的 数据 集 上 ， 可 以 方便 地 计算 模型 在 已 有 样本 上 的 准确 率 ， 所 以 分 类 属于 有 监督 的 学 习 。 图 6-1 是 一 个 将 销售 量 分 为 “高 、 中 、 低 ”三 分 类 问题 。 


2. 实 现 过 程 


分 类 的 实现 过 程 如 图 6-2 所 示 。 


训练 集 


输入 属性 : A, A, ... A 建立 分 类 模型 


输出 属性 : 类 标号 S 
己基 有 nt 个 
训练 样本 


得 到 训练 规则 


待 测 集 


输入 属性 : A, 4，.… A. 输入 属性 : A, A, ... A. 
输出 属性 : 类 标号 $ 输出 属性 : 类 标号 $ 
已 知 有 个 


属性 类 标号 未 知 的 待 


检测 样本 


PREFA 


图 6-2 ”分 类 模型 的 实现 步骤 


步 是 学 习 步 ， 通 过 归纳 分 析 训 练 样本 集 来 建立 分 类 模型 得 到 分 类 规则 ; 第 二 步 是 分 类 步 ， 先 用 已 知 的 测试 样本 集 评估 分 类 规则 的 准确 率 ， 如 果 准 确 率 是 可 以 接受 的 ， 则 使 用 


预测 模型 的 实现 也 有 两 步 ， 类 似 于 图 6-2 描 述 的 分 类 模型 ， 第 一 步 是 通过 训练 集 建 立 预测 属性 (数值 型 的 ) 的 函数 模型 ， 第 二 步 在 模型 通过 检验 后 进行 预测 。 
6.1.2 ”常用 的 分 类 与 预测 算法 


常用 的 分 类 与 预测 算法 见 表 6-1。 


表 6-1 主要 的 分 类 与 预测 算法 


算法 名 称 算法 描述 
回归 分 析 回归 分 析 是 确定 预测 属性 (数值 型 ) 与 其 他 变量 间 相 互 依 赖 的 定量 关系 最 常用 的 统计 学 方法 ， 
| 包括 线性 回归 、 非 线性 回归 、Logistic 回归 、 岭 回归 、 主 成 分 回归 、 偶 最 小 二 乘 回 归 等 模型 
(2E) 
算法 名 称 算法 拍 述 
决策 树 决策 树 杀 用 目 顶 问 下 的 逆 归 方式 ， 在 内 部 太 点 比较 属性 伸 ， 并 根据 不 同 的 属性 值 从 该 节 挟 回 下 


T, 最 终 得 到 的 叶 节 点 是 学 习 划 分 的 类 


在 机 融 学 习 中 ， 随 机 和 森林 是 一 个 包含 多 个 决策 树 的 分 类 送 ， 并 且 其 输出 的 类 别 是 由 个 别 树 输出 
AYE SIAN SRA Th ae. Leo Breiman 和 Adele Cutler 发 展 出 推论 出 随机 森林 的 算法 。 It Random Forests 
随机 森林 是 他 们 的 商标 。 这 个 术语 是 1995 年 由 贝尔 实验 室 的 Tin Kam Ho 所 提出 的 随机 决策 森林 (random 
decision forests) 而 来 的 。 这 PERE A 合 Breimans 的 Bootstrap aggregating 4H E Al Ho 的 random 
subspace method LV) £15 Ue ae py IA AE 


-" 贝 叶 斯 网 络 又 称 信 度 网 络 ， 是 Bayes 方法 的 扩展 ， 是 目前 不 确定 知识 表达 和 推理 领域 最 有 效 的 理 
贝 叶 斯 网 络 | ay 


支持 同 量 机 是 一 种 通过 某 种 非 线 性 映射， 把 低 维 的 非 线 性 可 分 转化 为 高 维 的 线性 可 分 ， 在 融 维 


文 持 门 量 机 | as 间 进 行 线性 分 析 的 算法 


6.1.3. RRM 
决策 树 方法 在 分 类 、 预 测 、 规 则 提取 等 领域 有 着 广泛 应 用 。 在 20 世 纪 70 年 代 后 期 和 和 20 世纪 80 年 代 初期 ， 机 器 学 习 研究 者 上 Ross Quinilan 提 出 ID3 算 法 后 ， 决 策 树 在 机 器 学 习 、 数 据 挖掘 邻 域 得 到 极 大 的 
发 展 。Quinilan 后 来 又 提出 了 C4.5， 成 为 新 的 监督 学 习 算 法 。1984 年 ， 几 位 统计 学 家 提出 了 CART 分 类 算法 。1D3 和 CART 算 法 大 约 同时 被 提出 ， 但 都 采用 类 似 的 方法 从 训练 样本 中 学 习 并 建立 决策 树 。 


决策 树 是 一 树 状 结构 ， 它 的 每 一 个 叶 节 点 对 应 一 个 分 类 ， 非 叶 节 点 对 应 在 某 个 属性 上 的 划分 ， 根 据 样本 在 该 属性 上 的 不 同 取 值 将 其 划分 成 若干 子 集 。 对 于 非 纯 的 叶 节 点 ， 多 数 类 的 标号 给 出 到 达 这 个 节 
点 的 样本 所 属 的 类 。 构 造 决 策 树 的 核心 问题 是 在 每 一 步 如 何 选择 适当 的 属性 对 样本 进行 拆 分 。 对 一 个 分 类 问题 ， 从 已 知 类 标记 的 训练 样本 中 学 习 并 构造 出 决策 树 是 一 个 自 上 而 下 ， 分 而 治之 的 过 程 。 


常用 的 决策 树 算法 见 表 6-2。 


表 6-2 常用 的 决策 树 算法 


决策 树 算 法 算法 描述 
ID3 算法 其 核心 是 在 决策 树 的 各 级 三 点 上 ， 使 用 信息 增益 方法 作为 属性 的 选择 标准 ， 以 帮助 确定 生成 每 


个 节点 时 应 采用 的 合适 属性 


C4. 5 决策 树 生 成 算法 相对 于 ID3 算法 的 重要 改进 是 使 用 信息 增益 率 来 选择 广 点 属性 。C4.5 算法 
C4. 5 算法 AY LA ve ID3 算法 存在 的 不 足 : ID3 算法 只 适用 于 离散 的 描述 属性 ， 而 CA. 5 SETE BERE US Ab XE ES SX 
的 摘 述 属性 ， 又 可 以 处 理 连续 的 描述 属性 


CART 算法 CART 决策 树 是 一 种 十 分 有 效 的 非 参数 分 类 和 回归 方法 ， 通过 构建 树 、 修 剪 树 、 评 估 树 来 构建 
j 个 二 义 树 。 当 终 节 点 是 连续 变量 时 ， 该 树 为 回归 树 ; 当 终 市 点 是 分 类 变量 时 ， 该 树 为 分 类 树 
本 节 将 详细 介绍 ID3 算 法 ， 它 也 是 最 经 典 的 决策 树 分 类 算法 。 
1.1D3 算 法 简介 及 基本 原理 


1D3 算 法 基于 信息 粹 来 选择 最 佳 测试 属性 。 它 选择 当前 样本 集中 具有 最 大 信息 增益 值 的 属性 作为 测试 属性 ; 样本 集 的 划分 则 依据 测试 属性 的 取 值 进行 ， 测 试 属性 有 多 少 个 不 同 取 值 ， 就 将 样本 集 划 分 为 多 
少 个 子 样本 集 ， 同 时 决策 树 上 相应 于 该 样本 集 的 节点 长 出 新 的 叶子 节点 。1D3 算 法 根据 信息 论 理论 ， 采 用 划分 后 样本 集 的 不 确定 性 作为 衡量 划分 好 坏 的 标准 ， 用 信息 增益 值 度量 不 确定 性 : 信息 增益 值 越 大 ， 
不 确定 性 越 小 。 因 此 ，1D3 算 法 在 每 个 非 叶 节 点 选择 信息 增益 最 大 的 属性 作为 测试 属性 ， 这 样 可 以 得 到 当前 情况 下 最 纯 的 拆 分 ， 从 而 得 到 较 小 的 决策 树 。 


设 S 是 s 个 数据 样本 的 集合 。 假 定 类 别 属 性 具有 m 个 不 同 的 值 : Ci (i=1, 2, http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., m) 。 设 si 是 类 Ci; 中 的 样本 数 。 对 一 个 给 定 的 样本 ， 它 总 的 信息 炳 为 


m 


ICS, OTE M == >》 P,log, ( P;) (6-1) 


t=] 
其 中 ，Pi 是 任意 样本 属于 C 的 概率 ， 一般 可 以 用 si/s 估 计 。 


设 一 个 属性 A 具有 k 个 不 同 的 值 {a1，a2,，http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15516/OEBPS/Text/...，ak}， 利 用 属性 A 将 集合 S 划 


分 为 k 个 子 集 {S1，S2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/...，SKH， 其 中 Sj 包含 了 集合 S 中 属性 A 取 a 值 的 样本 。 


震 选 择 属性 A 为 测试 属性 ， 则 这 些 子 集 就 是 从 集合 3 的 节点 生长 出 来 的 新 叶 节 点 。 设 si 是 子 集 Sj 中 类 别 为 C 的 样本 数 ， 则 根据 属性 A 划 分 样本 的 信息 粒 值 为 
k 
1 Sij 55j T 十 5 ni 
E(A) - LE R E (6-2) 


m S. 
ICSi $y, + , 54) = a Plog, (Pj), Lee +s Jaani : 
^ (too + 是 子 集 Si 中 类 别 为 C 的 样本 的 概率 . 


最 后 ， 用 属性 A 划 分 样本 集 S 后 所 得 的 信息 增益 (Gain) 为 


Gain (A) =I (s4, s2, http://www.hzcourse.com/resoutce /teadBook?path= /openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., sm) -E (A) (6-3) 


显然 E (A) 越 小 Gain (A) 的 值 越 大 ， 说 明 选 择 测试 属性 A 对 于 分 类 提供 的 信息 越 大 ， 选 择 A 之 后 对 分 类 的 不 确定 程度 越 小 。 属 性 A 的 k 个 不 同 值 对 应 样本 集 S 的 k 个 子 集 或 分 支 ， 通 过 递归 调用 上 述 过 
f= (不 包括 已 经 选择 的 属性 ) ， 生 成 其 他 属性 作为 节点 的 子 节点 和 分 支 来 生成 整个 决策 树 。1D3 决 策 树 算法 作为 一 个 典型 的 决策 树 学 习 算 法 ， 其 核心 是 在 决策 树 的 各 级 节点 上 都 用 信息 增益 作为 判断 标准 来 选 
择 属性 ， 使 得 在 每 个 非 叶 节 点 上 进行 测试 时 ， 都 能 获得 最 大 的 类 别 分 类 增益 ， 使 分 类 后 的 数据 集 的 粹 最 小 。 这 样 的 处 理 方 法 使 树 的 平均 深度 较 小 ， 从 而 有 效 提高 了 分 类 效率 。 


2.1D3 算 法 的 具体 流程 
1D3 算 法 的 具体 实现 步骤 如 下 : 
1) 对 当前 样本 集合 计算 所 有 属性 的 信息 增益 ; 
2) 选择 信息 增益 最 大 的 属性 作为 测试 属性 ， 把 测试 属性 取 值 相同 的 样本 划 为 同一 个 子 样本 集 ; 
3) 若 子 样本 集 的 类 别 属性 只 含有 单个 属性 ， 则 分 支 为 叶子 节点 ， 判 断 其 属性 值 并 标 上 相应 的 符号 ， 然 后 返回 调用 处 ; 否则 对 子 样本 集 递归 调用 本 算法 。 


下 面 将 结合 餐饮 案例 介绍 实现 1D3 的 具体 步骤 。T 和 餐饮 企业 作为 大 型 连锁 企业 ， 生 产 的 产品 种 类 比较 多 ， 另 外 涉及 的 分 店 所 处 的 位 置 也 不 同 ， 数 目 比 较 多 。 对 于 企业 的 高 层 来 讲 ， 了 和解 周 末 和 非 周 末 销 量 
是 否 有 大 的 区 别 ， 以 及 天 气 、 促 销 活动 这 些 因素 能 否 影 响 门店 的 销量 这 些 信息 至 关 重要 。 因 此 ， 为 了 让 决策 者 准确 了 解 和 销量 有 关 的 一 系列 影响 因素 ， 需 要 构建 模型 来 分 析 天 气 、 是 否 周 末 和 是 否 有 促销 活 
动 对 销量 的 影响 ， 下 面 以 单个 门店 来 进行 分 析 。 


为 “多云” "Sakis" "ls" 这 些 属性 值 相近 ， 均 是 适宜 外 出 的 天 气 ， 不 会 对 产品 销量 有 太 大 的 影响 ， 


对 于 天 和 气 属 性 ， 数 据 源 中 存在 多 种 不 同 的 值 ， 这 里 将 属性 值 相近 的 值 进行 类 别 整合 。 如 天 和 气 
等 天 气 ， 均 是 不 适宜 外 出 的 天 气 ， 因 此 将 它们 归 为 一 类 ， 天 气 属 性 值 设置 为 “ 坏 ”。 


此 将 它们 归 为 一 类 ， 天 气 履 性 值 设置 为 “好 ”， 同 理 对 于 “ 雨 ”“ 小 到 中 十 ”等 天 气 
对 于 是 否 周末 属性 ， 周 末 设 置 为 “是 。， 非 周末 则 设置 为 “ 否 ”。 
对 于 是 否 有 促销 活动 属性 ， 有 促销 设置 为 “是 ”， 无 促销 则 设置 为 “ 否 ”。 


产品 的 销售 数量 为 数值 型 ， 需 要 对 属性 进行 离散 化 ， 将 销售 数据 划分 为 “高 ”和 “ 低 ” 两 类 。 将 其 平均 值 作 为 分 界 点 ， 大 于 平均 值 的 划分 到 “高 ”类 别 ， 小 于 平均 值 的 划分 为 “ 低 ”类 别 。 


al 


经 过 数据 预 处 理 ， 得 到 的 数据 集合 如 表 6-3 所 示 。 


表 6-3 处理 后 的 数据 集 


"s 是 否 有 促销 销量 
坏 Ke 是 局 


|| 
| . 
. 


数据 详 见 : 01- 示 例 数 据 / 销 量 数 据 .xls 


采用 1D3 算 法 构建 决策 树 模型 的 具体 步骤 如 下 : 


1) 根据 公式 (6-1) ， 计 算 总 的 信息 ， 其 中 数据 中 总 记录 数 为 34， 销 量 为 “高 ”的 数据 有 18，“ 低 ”的 有 16。 


10 
34 


10 


=a = 0. 997 503 


I(18,16) = 


— 10. = 


2) 根据 公式 (6-2) 和 (6-3) , HES T Nis PERS S S. 


对 于 天 和 气 属 性 ， 其 属性 值 有 “好 ”和 “ 坏 ” 两 种 。 其 中 在 天 气 为 “好 ”的 条 件 下 ， 销 量 为 “高 ”的 记录 数 为 11， 销 量 为 “ 低 ” 的 记录 数 为 6， 可 表示 为 (11，6) ; 气 为 “ 坏 ” 


RAR, Him 


为 “高 ”的 记录 为 7， 销 量 为 “ 低 ” 的 记录 为 10， 可 表示 为 (7, 10) . UKSE ES wee: 
1] 11 6 6 
1(11,6) 2 - —log, — - slog, —— = 0. 936 667 
52 - 17 98 
? 17 17 17 17 
7 7 10 10 
C710) = — Slog, = — lop ] = 0.977 418 
17 917 TT 17 
| i. CN | iF NP 
E( 天气) = 一 1(11,6) + —1(7,10) = 0.957 043 
4 34 
是 否 周末 属性 的 属性 值 有 “是 ”和 “人 否 ” 两 种 。 在 是 否 周末 属性 为 “是 ”的 条 件 下 ， 销 量 为 “高 ”的 记录 数 为 11， 销 量 为 “ 低 ” 的 记录 数 为 3， 可 表示 为 (11, 3) ; 在 是 否 周末 属性 为 “ 的 条 件 
下 ， 销 量 为 “高 ”的 记录 数 为 7， 销 量 为 “ 低 ” 的 记录 数 为 13， 可 表示 为 (7，13) . WIFISIERELEMEBSISRASTTEDSURESE T: 
] ] B 3 
(11,3) 2- —log, — - = Lan — = 0. 749 595 
mE 14 “14 14 14 
7 í 13 13 
JUL, I3): s= Ini, —— = = 168, = 0. 934 068 
ZU ^20  2U 62 20 
H z 20 
(是 否 周 末 ) oa ,3 ) + 341 (7,13) = 0. 858 109 
是 否 有 促销 属性 的 属性 值 有 “是” 和“ 否 ”两 种 。 在 是 否 有 促销 属性 为 “是 ”的 条 件 下 ， 销 量 为 “高 ”的 记录 数 为 15， 销 量 为 “ 低 ” 的 记录 数 为 7， 可 表示 为 (15，7) ; 在 是 否 有 促销 属性 为 “ 
条 件 下 ,销量 为 “高 ”的 记录 数 为 3， 销 量 为 “ 低 ” 的 记录 数 为 9， 可 表示 为 (3，9) 。 则 是 否 有 促销 属性 的 信息 灶 算 过程 如 下 : 
15 l5 ri 3 
K157) = — og, — - zog, = 0. 902 393 
i O OF 39 52 22 
3 " 
KA io) = — — —log = 0. 811.278 
- ; S2 * 
-2 ~“ M 12 
E( 是 否 有 促销 ) = iis, Tha A C3; 9) = 0. 870 235 
34 5 
3) 根据 公式 (6-3) ， 计 算 天 气 、 是 否 周末 和 是 否 有 促销 属性 的 信息 增益 值 。 
Gain (K) =I (18, 16) -E (X &) =0.997503-0.957043=0.04046 
Gain (E GAA) =I (18, 16) -E (2 GAR) =0.997503-0.858109=0.139394 
Gan (2G A 1244) =I (18, 16) -E (是 否 有 促销 ) =0.997503-0.870235=0.127268 
4) 由 第 3) 步 的 计算 结果 可 以 知道 是 否 周末 属性 的 信息 增益 值 最 大 ， 它 的 两 个 属性 值 “ 是 ”和 “ 否 ” 作 为 该 根 节点 的 两 个 分 支 。 然 后 按照 第 1) 步 ~ 第 3) 步 的 方法 继续 对 该 根 节点 的 三 个 分 支 划 分 节 


点 ， 针 对 每 一 个 分 支 节点 继续 计算 信息 增益 ， 如 此 循环 反复 ， 直 到 没有 新 的 节点 分 支 ， 最终 构 成 一 棵 决策 树 。 生 成 的 决策 树 模 型 如 图 6-3 所 示 。 


”的 


图 6-3 ID3 生 成 的 决策 树 模 型 


从 上 面 的 决策 树 模 型 可 以 看 出 ， 门 店 的 销售 高 低 和 各 个 属性 之 间 的 关系 ， 并 可 以 提取 出 以 下 决策 规则 : 


. 若 周末 属性 为 “是 ”， 天 气 为 “好 ”， 则 销量 为 “高 ”; 


~ 


. 若 周末 属性 为 “是 ” : KAA “ 坏 ” ] 促销 属性 为 “是 ” : 则 销量 为 € 


at 


: 若 周 末 属 性 为 “是 ” KAA ar : 促销 属性 为 “A” ] 则 销量 为 “ 低 ” 


. 若 周末 属性 为 “ 否 ”， 促 销 属性 为 “ 否 ”， 则 销量 为 “ 低 ”; 


m 


~ 


， 天 气 为 “好 ， 则 销量 为 高 ; 


pu 


. 车 周 末 属 性 为 “ 否 ”， 促 销 属性 为 “ 


~ 


. 若 周末 属性 为 “ 否 ”， 促 销 属性 为 “是 ”， 天 气 为 “ 坏 ”， 则 销量 为 “ 低 ” 


由 于 1D3 决 策 树 算法 采用 信息 增益 作为 选择 测试 属性 的 标准 ， 会 偏向 于 选择 取 值 较 多 的 ， 即 所 谓 的 高 度 分 支 属 性 ， 而 这 类 属性 并 不 一 定 是 最 优 的 属性 。 同 时 ID3 决 策 树 算法 只 能 处 理 离散 属性 ， 对 于 连续 
型 的 属性 ， 在 分 类 前 需要 对 其 进行 离散 化 。 为 了 解决 倾向 于 选择 高 度 分 支 属性 的 问题 ， 采 用 信息 增益 率 作为 选择 测试 属性 的 标准 ， 这 样 便 得 到 C4.5 决 策 树 算法 。 常 用 的 决策 树 算法 还 有 CART 算 法 、SLIQ 算 
法 、SPRINT 算 法 和 PUBLIC 算 法 等 。 


6.1.4 Mahout 中 Random Forests 算 法 的 实现 原理 


在 Mahout 中 ，Random Forests 算 法 由 三 大 部 分 组 成 : 根据 原始 数据 生成 描述 性 文件 ;根据 描述 性 文件 、 输 入 数据 和 其 他 参数 应 用 决策 树 算法 生成 多 棵 决策 树 ， 把 这 些 决策 树 进行 转换 生成 随机 森林 模 
型 ;使 用 测试 数据 来 对 上 面 生 成 的 随机 森林 模型 进行 评估 ， 分 析 上 述 模型 的 好 坏 。 
1. 生 成 描述 性 文件 


在 生成 描述 性 文件 之 前 ， 首 先 要 对 原始 输入 训练 数据 有 一 定 的 了 解 ， 如 每 个 特征 属性 的 数据 格式 ， 数 据 格式 一 般 指 属性 是 离散 的 还 是 连续 的 。 还 应 知道 这 个 训练 数据 集 是 否 含有 不 参与 建 模 的 属性 列 ， 
比如 ， 有 些 数据 集 第 一 列 是 行 号 ， 这 一 般 在 建 模 时 是 不 需要 的 。 还 有 一 些 数据 集 含 有 一 些 描述 性 列 ， 这 些 数据 在 建 模 时 也 是 不 需要 的 。 最 后 要 知道 训练 数据 集 针对 每 条 输入 记录 ， 它 的 输出 类 别 是 在 哪个 属 
性 列 。 知 道上 面 这 些 前 提 后 ， 就 可 以 生成 描述 性 文件 了 。 


下 面 先 介绍 生成 描述 性 文件 的 策略 。 


1) 提供 每 个 属性 列 的 描述 (属性 列 属于 不 参加 建 模 的 用 | 表示 ， 属 性 列 是 离散 的 用 C 表 示 ， 属 性 列 是 连续 的 用 N 表 示 ， 属 性 列 是 输出 类 别 的 用 L 表 示 ) 。 


2) 根据 这 个 描述 遍历 输入 训练 数据 集 ， 针 对 每 条 训 | 练 数据 集中 的 记录 使 用 属性 列 描述 来 进行 分 析 ， 即 进行 描述 性 一 致 检查 。 具 体 分 析 如 下 : 
` 如 果 这 列 属性 描述 是 [， 则 只 需 记录 这 个 属性 列 属于 第 几 个 属性 列 ， 即 属性 列 下 标 ， 然 后 继续 判断 其 他 属性 列 。 
> 如 果 这 列 属性 描述 是 N， 则 把 这 个 属性 列 的 值 转换 为 数值 。 转 换 出 错 ， 则 说 明 这 条 记录 和 描述 文件 不 符 ， 于 是 退出 分 析 下 一 条 记录 。 


如 果 这 列 属性 描述 是 C， 则 把 这 个 属性 值 存 入 一 个 不 可 重复 的 set 中 ， 并 用 set 的 下 标 来 表示 这 个 属性 值 ， 用 于 后 面 的 计算 。 


“ 如 果 这 列 属性 描述 是 L， 则 按照 C 的 格式 存储 ， 同 时 记录 这 个 属性 列 下 标 。 


3) 如 果 上 面 的 属性 列 都 通过 了 摘 述 性 一 致 检查 ， 则 把 保存 输入 文件 总 记录 数 的 变量 Num 进 行 加 1 操作 。 最 后 把 用 户 提供 的 属性 列 描述 ， 属 性 列 描述 为 |、!L 的 属性 列 下 标记 录 ， 属 性 列 描述 为 C 的 所 有 列 
表 ， 记 录 文件 总 记录 条 数 的 Num 全 部 存 入 数据 描述 性 文件 即 可 。 


一 个 引用 上 面 策略 生成 描述 性 文件 的 训练 数据 ， 如 表 6-4 所 示 。 


表 6-4 Random Forests 算 法 的 输入 训练 数据 
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按照 上 面 生成 的 描述 性 文件 生成 策略 可 以 得 到 生成 的 描述 性 文件 的 各 个 变量 。 首 先 提供 属性 列 的 描述 性 字符 串 : [12N CL] ， 其 中 [2N] 其 实 就 等 于 [N N] 。 根 据 这 样 的 规则 ， 首 先 属性 列 描述 性 
字符 串 要 转换 为 [lgnore，Numerical，Numerical，Categorical，Categorical] ， 然 后 存 入 描述 性 文件 。 属 性 列 X3 的 列表 为 [III] (顺序 是 随机 的 ) ， 属 性 列 Y 的 列表 为 [132] (顺序 同样 是 随机 
B3) ， 然 后 把 这 两 个 列表 都 存 入 描述 性 文件 。 最 后 输入 数据 集 的 记录 条 数 ， 这 里 应 该 是 4， 而 不 是 5， 因 为 第 3 条 记录 的 属性 列 X1 的 描述 字符 串 为 数值 型 的 ， 但 是 其 值 为 离散 的 ， 与 描述 不 符 ， 所 以 这 条 记录 
不 能 作为 输入 数据 集中 的 一 条 


2. 生 成 随机 森林 模型 
这 一 步 主要 包括 三 个 操作 : 建立 一 棵 决策 树 ; 把 所 有 建 好 的 决策 树 转换 为 随机 森林 模型 ， 把 随机 森林 模型 存 入 文件 。 
(1) 建立 一 棵 决策 树 


建立 一 棵 决策 树 其 实 是 这 一 步 的 最 重要 的 操作 。 如 果 知 道 建立 决策 树 的 原理 ， 那 么 这 一 步 的 其 他 操作 就 很 好 理解 了 。 建 树 的 过 程 可 以 使 用 图 6-4 所 示 的 算法 流程 来 分 析 : 首先 对 原始 数据 采用 bootstrap 
进行 抽样 ， 形 成 新 的 数据 集 ， 然 后 随机 抽取 m 个 属性 ， 分 别 对 这 些 属性 进行 增益 计算 (增益 计算 参考 粒 计 算 ) ， 得 到 最 大 增益 属性 。 这 个 最 大 增益 属性 就 是 这 棵 决策 树 的 根 节点 ， 由 最 大 增益 属性 又 可 以 把 
数据 集 分 为 两 个 或 者 多 个 部 分 ( 知 属 性 为 数值 型 ， 则 数据 集 分 为 两 部 分 ， 否 则 分 为 多 个 部 分 ) 。 把 数据 分 为 若干 部 分 后 ， 就 可 以 递归 调用 建树 方法 来 创造 根 节 点 的 子 树 了 。 


随机 属 性 选择 m 个 数 
数据 集 阔 值 V 


X A bootstrap 
抽样 获得 新 


rH E dataset 


-判断 dataset 容 量 \、 征 
是 宪 小 于 N 


随机 选择 m 个 属性 
计算 m 个 属性 增益 


3 up rp es 
类 别 是 dataset 中 
选择 最 大 的 增益 属性 A 


£1 
离散 数值 类 型 ? 


根据 A 分 离 原始 
dataset 为 两 部 分 
分 别 建 立 左 右 子 树 


根据 A 分 离 原 始 dataset 为 7 部 分 
分 别 建立 7 棵 子 树 
7 为 A 的 取 仁 个 数 


图 6-4 决策 树 建树 算法 流程 
这 个 算法 的 结束 条 件 是 当 整 棵 树 都 建立 完成 时 ， 当 数据 集 容量 小 于 给 定 阅 值 时 不 是 算法 结束 的 时 候 ， 这 点 要 注意 。 
(2) 决策 树 转换 为 随机 森林 模型 


在 建树 阶段 ， 每 次 建立 一 棵 树 后 就 会 将 其 写 入 文件 中 ， 所 以 到 最 后 ， 所 有 的 树 都 在 一 个 文件 中 。 而 这 一 步 就 是 读 取 这 个 文件 ， 然 后 把 这 些 决 策 树 封装 在 一 个 链表 中 ， 存 入 一 个 变量 中 ， 这 个 变量 就 是 随 


机 森林 变量 模型 。 

(3) 存储 随机 森林 模型 

存储 随机 森林 模型 就 是 把 (2) 中 产生 的 随机 森林 变量 模型 存 入 HDFS 文 件 系 统 当 中 ， 以 方便 后 面 评估 阶段 读 取 随机 森林 模型 。 
3. 随 机 森林 模型 评价 


评估 随机 森林 模型 的 最 主要 参数 是 分 类 的 正确 率 ， 附 加 输出 还 有 一 个 混淆 和 矩 阵 。 混 清和 矩 阵 的 一 般 形式 如 下 : 


a b C d e f « -- Classified. as 

15 0 2 0 0 0 | 17 a =3 
0 76 0 0 0 | 76 b zd 
0 2 68 0 0 0 | 70 c =] 
0 0 28 0 0 | 29 d zT 
0 0 0 9 0 | 9 e =6 
0 0 1 0 12 | 13 f =5 


这 一 步 的 流程 如 图 6-5 所 示 ， 只 是 在 进行 i++ 操作 时 ， 并 不 是 简单 的 + +, ERJOSIN/NIGSUETSBUIEBSSS, RBS BIH TIAA eGR, REARS SURGE GARE. 


测试 集 CN 条 记录 ) 
随机 森林 F 
Ay 量 值 i=Q 


遇 有 历 F 中 的 每 棵 树 来 对 » 记 集 中 的 一 条 志 录 进行 分 
类 ， 取 分 类 次 数 重复 最 多 的 那个 结果 作为 最 终结 果 


阿 所 F 分 析 的 结果 有、、、 
始 结 果 是 否 一 栏 一 


从 测试 集中 删除 上 面 的 那 条 记录 


测试 集 是 否 为 空 


DA 


WEM: UN 


图 6-5 ”随机 森林 模型 评价 的 流程 图 


Mahout 的 Random Forests 算 法 的 基本 原理 如 图 6-5 所 示 ， 其 分 布 式 策略 如 图 6-6 所 示 。 
Map 
map | 


DataSet] 


Input map? 
P DataSet2 i 


DataSet 


| map3 
DataSet? 


Driver 


图 6-6 Random Forests 算 法 的 分 布 式 策 


这 里 首先 根据 提供 分 片 的 大 小 来 对 原始 数据 进行 分 片 ， 分 片 后 可 以 针对 每 个 分 片 建立 一 个 map 任 务 ， 这 样 可 以 使 集群 所 有 节点 都 参与 计算 ， 达 到 并 行 的 目的 。 但 是 这 里 也 有 不 足 的 地 方 ， 关 于 分 片 的 大 
小 : 如 果 分 片 太 大 ， 那 么 可 能 只 有 一 个 分 片 ， 这 样 就 达 不 到 并 行 的 目的 ;但 是 如 果 分 片 太 小 ， 每 一 个 分 片 数据 包含 的 数据 就 不 足以 涵盖 原始 数据 集 的 大 部 分 特征 ， 这 样 得 到 的 随机 森林 模型 的 效果 会 很 差 。 
这 两 种 结果 都 不 是 我 们 想 看 到 的 ， 所 以 分 片 大 小 需要 慎重 考虑 。 


6.1.5 ”动手 实践 


参考 第 2、 第 15 章 内 容 部 署 好 Hadoop 集 群 以 及 Mahout 相 应 的 jar 包 ， 即 可 开始 下 面 的 实验 。 (本 章 实验 ， 如 无 特别 说 明 ， 则 都 默认 已 经 安装 好 了 Hadoop 集 群 以 及 Mahout 相 关 jar 包 。 ) 


1) 将 “02- 上 机 实验 /glass.txt” 数 据 下 载 到 Hadoop 集 群 客户 端 ， 并 上 传 到 云 平台 


# hadoop fs -put /opt/glass.txt /user/root/glass.txt 
# hadoop fs -ls -R /user/root 
-rw-r--r-- 3 root supergroupl2115 2015-05-30 15:58 /user/root/glass.txt 


2) 运行 Mahout 的 describe 命 令 ， 执 行 生成 描述 性 文件 任务 。 


4 ./mahout describe -p /user/root/glass.txt -f glass.info -d I 9N L 

Running on hadoop, using / opt/hadoop- 2.6.0/bin/hadoop and HADOOP CONF DIR- 

MAHOUT-JOB: /opt/mahout-distribution-0.10.0/mahout-examples-0.10.0-job.jar 

15/05/30 16:01:59 WARN MahoutDriver: No describe.props found on classpath, will use command-line arguments only 

15/05/30 16:01:59 INFO Describe: Generating the descriptorhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/... 
15/05/30 16:02:01 INFO Describe: generating the datasethttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/OEBPS/Text/... 
15/05/30 16:02:02 INFO Describe: storing the dataset description E 

15/05/30 16:02:03 INFO MahoutDriver: Program took 3508 ms (Minutes: 0.05846666666666667) 


3) 运行 Mahout 的 buildforest 命 令 ， 建 立 随 机 森林 模型 


# ./mahout buildforest -d /user/root/glass.txt -ds glass.info -sl 3 -ms 3 -p -t 5 -o output-forest 


Running on hadoop, using /opt/hadoop-2.6.0/bin/hadoop and HADOOP CONF DIR= 

MAHOUT-JOB: /opt/mahout-distribution-0.10.0/mahout-examples-0.10.0-job.jar 

15/05/30 16:06:34 WARN MahoutDriver: No buildforest.props found on classpath, will use command-line arguments only 

15/05/30 16:06:37 INFO BuildForest: Partial Mapred implementation 

15/05/30 16:06:37 INFO BuildForest: Building the foresthttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/OEBPS/Text/... 
15/05/30 16:06:37 INFO FileInputFormat: Total input paths to process : 1 E 
15/05/30 16:06:37 INFO PartialBuilder: Setting mapred.map.tasks = 1 

15/05/30 16:06:37 INFO deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps 

15/05/30 16:06:37 INFO RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032 

15/05/30 16:06:43 INFO FileInputFormat: Total input paths to process : 1 

15/05/30 16:06: INFO JobSubmitter: number of splits:1 

15/05/30 16:06:44 INFO JobSubmitter: Submitting tokens for job: job 1432825607351 0133 

15/05/30 16:06: INFO YarnClientImpl: Submitted application application | 1432825607351 0133 

15/05/30 16:06: INFO Job: The url to track the job: http://master:8088/proxy/application 1432825607351 0133/ 

15/05/30 16:06:44 INFO Job: Running job: Scb 1432825607351 0133 


4) 运行 Mahout 的 testforest 命 令 ， 对 建立 的 随机 森林 模型 进行 评价 。 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/0E 


15/05/30 16:07:21 INFO Job: Job job 1432825607351 0133 running in uber mode : false 
15/05/30 16:07:21 INFO Job:map 0$ reduce 0$ 
15/05/30 16:07:35 INFO Job:map 100% reduce 0% 
15/05/30 16:07:36 INFO Job: Job job 1432825607351 0133 completed successfully 
15/05/30 16:07:36 INFO Job: Counters: 30 
File System Counters 
FILE: Number of bytes read=560 
FILE: Number of bytes written-107397 
FILE: Number of read operations=0 
FILE: Number of large read operations=0 
FILE: Number of write operations-0 
HDFS: Number of bytes read=12219 
HDFS: Number of bytes written-3136 
HDFS: Number of read operations-5 
HDFS: Number of large read operations=0 
HDFS: Number of write operations-2 
Job Counters 
Launched map tasks-1 
Data-local map tasks=1 
Total time spent by all maps in occupied slots (ms)-11170 
Total time spent by all reduces in occupied slots (ms)=0 
Total time spent by all map tasks (ms)-11170 
Total vcore-seconds taken by all map tasks-11170 
Total megabyte-seconds taken by all map tasks-11438080 
Map-Reduce Framework 
Map input records-214 
Map output records-5 
Input split bytes-104 
Spilled Records=0 
Failed Shuffles=0 
Merged Map outputs=0 
GC time elapsed (ms)=424 
CPU time spent (ms) =2120 
Physical memory (bytes) snapshot=120029184 
Virtual memory (bytes) snapshot=1171374080 
Total committed heap usage (bytes) =45219840 
File Input Format Counters 
Bytes Read=12115 
File Output Format Counters 
Bytes Written=3136 
15/05/30 16:07:36 INFO HadoopUtil: Deleting hdfs://master:8020/user/root/output-forest 
15/05/30 16:07:36 INFO BuildForest: Build Time: Oh Om 59s 837 
15/05/30 16:07:36 INFO BuildForest: Forest num Nodes: 207 
15/05/30 16:07:36 INFO BuildForest: Forest mean num Nodes: 41 
15/05/30 16:07:36 INFO BuildForest: Forest mean max Depth: 9 
15/05/30 16:07:36 INFO BuildForest: Storing the forest in: output-forest/forest.seq 
15/05/30 16:07:37 INFO MahoutDriver: Program took 62505 ms (Minutes: 1.04175) 


ds glass.info -m output-forest -mr -a -o test-forest 


found on classpath, will use command-line arguments only 


Book?path-/openresources/teach ebook/uncompressed/15516/0Fl 


BPS/Text/... 


BPS/Text/... 


for job: job 1432825607351 0134 
tion application 1432825607351 0134 


tp://master:8088/proxy/application 1432825607351 0134/ 


false 


# ./mahout testforest -i /user/root/glass.txt - 
Running on hadoop, using /opt/hadoop-2.6.0/bin/hadoop and HADOOP CONF DIR- 
MAHOUT-JOB: /opt/mahout-distribution-0.10.0/mahout-examples-0.10.0-job.jar 
15/05/30 16:11:12 WARN MahoutDriver: No testforest.props 
15/05/30 16:11:15 INFO Classifier: Adding the dataset to the DistributedCache 
15/05/30 16:11:15 INFO Classifier: Adding the decision forest to the DistributedCache 
15/05/30 16:11:15 INFO Classifier: Configuring the jobhttp://www.hzcourse.com/resource/readi 
15/05/30 16:11:15 INFO Classifier: Running the jobht 
15/05/30 16:11:15 INFO RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032 
15/05/30 16:11:18 INFO FileInputFormat: Total input paths to process : 1 
15/05/30 16:11:18 INFO JobSubmitter: number of splits:1 
15/05/30 16:11:19 INFO JobSubmitter: Submitting tokens 
15/05/30 16:11:19 INFO YarnClientImpl: Submitted applica 
15/05/30 16:11:19 INFO Job: The url to track the job: ht 
15/05/30 16:11:19 INFO Job: Running job: job 1432825607351 0134 
15/05/30 16:11:42 INFO Job: Job job 1432825607351 0134 running in uber mode : 
15/05/30 16:11:42 INFO Job:map 0$ reduce 0$ 
15/05/30 16:11:51 INFO Job:map 100% reduce 0% 
15/05/30 16:11:51 INFO Job: Job job 1432825607351 0134 completed successfully 
15/05/30 16:11:51 INFO Job: Counters: 30 7 
File System Counters 
FILE: Number of bytes read=3484 
FILE: Number of bytes written=106925 
FILE: Number of read operations=0 
FILE: Number of large read operations=0 
FILE: Number of write operations=0 
HDFS: Number of bytes read=12219 
HDFS: Number of bytes written=4434 
HDFS: Number of read operations=5 
HDFS: Number of large read operations=0 
HDFS: Number of write operations=2 
Job Counters 
Launched map tasks=1 
Data-local map tasks=1 
Total time spent by all maps in occupied slots (ms)=6633 
Total time spent by all reduces in occupied slots (ms)=0 
Total time spent by all map tasks (ms)=6633 
Total vcore-seconds taken by all map tasks=6633 
Total megabyte-seconds taken by all map tasks=6792192 
Map-Reduce Framework 
Map input records=214 
Map output records=215 
Input split bytes=104 
Spilled Records=0 
Failed Shuffles=0 
Merged Map outputs=0 
GC time elapsed (ms)=109 
CPU time spent (ms) =1090 
Physical memory (bytes) snapshot=115097600 
Virtual memory (bytes) snapshot=1171374080 
Total committed heap usage (bytes) =45219840 
File Input Format Counters 
Bytes Read=12115 
File Output Format Counters 
Bytes Written=4434 
15/05/30 16:11:52 INFO HadoopUtil: Deleting test-forest/mappers 
15/05/30 16:11:52 INFO TestForest: 
Summary 
Correctly Classified Instances :187 87.3832% 


Incorrectly Classified 


[Instances 


:27 12.6168% 


Total Classified Instances:214 

Confusion Matrix 

a bcdef«--Classified as 

6 3 8 000 |17a=3 

0 67 6 Jal | 76b=2 

0 4 65 100 | 70c=1 

0 0 1 28 00 |29d=7 

0 0 00 9 0 [9 e=6 

0 0 010 12 |13f-5 

Statistics 

KappaO0.7553 

Accuracy 87.3832$ 

Reliability 72.1669% 

Reliability (standard deviation) 0.3879 
eighted precision 0.8831 
Weighted recall 0.8738 
Weighted F1 score 0.8646 


15/05/30 16:11 


252 


INFO MahoutDriver: 


Program took 39266 ms (Minutes: 0.6544333333333333) 


餐饮 企业 经 常会 碰 到 如 下 问题 : 


1) 如 何 通过 餐饮 客户 消费 行为 的 测量 ， 进 一 步 评判 餐饮 客户 的 价值 和 细 分 餐饮 客户 ， 找 到 有 价值 的 客户 群 和 需 关 注 的 客户 群 ? 


2) 如 何 合理 分 析 菜 品 ， 以 便 区 分 哪些 菜品 既 畅 销 ， 毛 利 又 高 ， 哪 些 菜品 不 但 清 销 ， 而 且 和 毛利 低 ? 


在 没有 给 定 划 


分 类 别 的 情况 下 ， 根 据 数据 相似 度 进 行 样本 分 组 的 一 种 方法 。 与 分 类 模型 需要 使 用 有 类 标记 样本 构成 的 训练 数据 不 同 ， 聚 类 模型 可 以 建立 在 无 类 标记 的 数据 上 ， 


类 分 析 是 
是 一 种 非 监督 的 学 习 算法 。 聚 类 的 输入 是 一 组 未 被 标记 的 样本 ， 聚 类 根据 数据 自身 的 距离 或 相似 度 将 它们 划分 为 若干 组 ， 划 分 的 原则 是 组 内 样本 最 小 化 而 组 间 (外 部 ) 距离 最 大 化 ， 如 图 6-7 所 示 。 


常用 的 聚 类 方法 见 表 6-5: 


FE hill 


划分 (AER) 方法 


层次 分 析 方 法 


基于 密度 的 方法 


基于 网 格 的 方法 
基于 模型 的 方法 


图 6-7 聚 类 分 析 建 模 原理 


表 6-5 常用 的 聚 类 方法 


包括 的 主要 算法 

K-Means 算法 (KK- 平 均 ) 、K- MEDOIDS Shi (K- FUL i3), CLARANS 算法 (基于 选择 的 
算法 ) 

BIRCH 算法 (平衡 迭代 规约 和 聚 类 )、CURE 算法 (代表 点 聚 类 )、CHAMELEON 算法 
(动态 模型 ) 

DBSCAN 算法 (基于 高 密度 连接 区 域 ) DENCLUE 算法 (密度 分 布 函数 )、OPTICS 算法 
( 对象 排序 识别 ) 

STING 算法 (统计 信息 网 络 ) 、CLIOUE 算法 ( 聚 类 高 维 空间 )、WAVE- CLUSTER 算法 
(小 波 变 换 ) 

统计 和 学 方法 、 神 经 网 络 方法 


表 6-6 常用 的 划分 聚 类 分 析 算 法 


算法 名 称 算法 描述 
ET K-25[t 2S EHER, EMERE CEL, KAI AE RK, BAAR 
acd 理 简 单 ， 而 且 便 于 处 理 大 量 数据 
K- 均 值 算 法 对 孤立 点 的 敏感 性 ，K- 中 心 点 算法 不 采用 复 中 对 象 的 平均 值 作为 复 中 心 ， 


KADER [aegro te aito e HE ub 
系统 聚 类 也 叫 多 层次 聚 类 ， 分 类 的 单位 由 高 到 低 呈 树 形 结 


Ar Hs 2E 
RAUS | 就 越 少 ， 但 这 些 对 象 问 的 共同 特征 越 多 。 该 聚 类 方法 只 适用 于 小 数据 量 时 


而 选用 篇 中 


i 构 ， 且 所 处 的 位 EER, 其 包含 的 对 象 


6.2.2 K-Means 聚 类 算法 
算法 ， 在 最 小 化 误差 函数 的 基础 上 ， 将 数据 划分 为 预定 的 类 数 K， 采 用 距离 作为 相似 性 的 评价 指标 ， 即 认为 两 个 对 象 的 距离 想 折 ， 其 相似 度 就 越 大 


K-Means 算 法 是 典型 的 基于 距离 的 非 层次 聚 类 


1. 算 法 过 程 
1) 从 N 个 样本 数据 中 随机 选取 K 个 对 象 作为 初始 的 聚 类 中 心 


2) 分 别 计算 每 个 样本 到 各 个 聚 类 中 心 的 距离 ， 将 对 象 分 配 到 距离 最 近 的 聚 类 中 ; 
3) 所 有 对 象 分 配 完成 后 ， 重 新 计算 K 个 聚 类 的 中 心 ; 
否则 转 5) ; 


4) 与 前 一 次 计算 得 到 的 K 个 聚 类 中 心 比较 ， 如 果 聚 类 中 心 发 生变 化 ， 转 2) ， 
多 次 运行 K-Means 算 法 。 在 所 有 对 象 分 配 完 成 


结果 。 
类 。 在 实践 中 ， 为 了 得 到 较 好 的 结果 ， 通 常 以 不 同 的 初始 聚 类 中 心 ， 


5) 当 质 心 不 发 生变 化 时 ， 停 止 并 输出 聚 类 
聚 类 中 心 的 随机 选择 ， 可 能 使 得 结果 严重 偏离 全 局 最 优 分 类 。 
量 时 ， 均 值 可 能 无 定义 ， 可 以 使 用 K- 众 数 方法 。 


RSH DIAG 


=A IN 


聚 类 的 结果 可 能 依赖 于 初始 
的 均值 ， 但 是 当 样 本 的 某 些 属性 是 分 类 变 


后 ， 重 新 计算 K 个 聚 类 的 中 心 时 ， 对 于 连续 数据 ， 


2 数据 类 型 与 相似 性 的 度量 
(1) 连续 属性 

需要 度量 样本 之 间 的 距离 、 样 本 与 簇 之 间 的 距离 以 及 禾 与 簇 之 间 的 距离 

艇 与 能 之 间 的 距离 可 以 用 能 中 心 的 距离 d (ei ej . 


属性 ， 要 先 对 各 属性 值 进行 零 - 均 值 规 范 ， 再 计算 距离 。K-Means 聚 类 算法 中 ， 


对 于 连续 
页 距离 和 闵可夫 斯 基 距 离 ， 样 本 与 艇 之 间 的 距离 可 以 用 样本 到 簇 中 心 的 距离 d (ei, X) ; 


度量 样本 之 间 的 相似 性 最 常用 的 是 欧 几 里 得 距离 、 


neu 
led 


a 


用 pP 个 属性 来 表示 n 个 样本 的 数据 矩阵 如 下 : 


X 11 UU X lp 
X al B X np 
欧 几 里 得 距离 如 下 : 
曼哈顿 距离 如 下 : 
d(i,j) = |x. = |+ |x, -x| ++ Xi - x, | (6-5) 
BIGTCHSREIE RR: 
d(i,j) )' (6-6) 


q 为 正 整数 ，q=1 时 为 曼哈顿 距离 ;，q=2 时 为 欧 几 里 得 距离 。 


(2) 文档 数据 


对 于 文档 数据 使 用 余弦 相似 性 度量 ， 先 将 文档 数据 整理 成 文档 一 词 矩 阵 格 式 ， 如 表 6-7 所 示 
表 6-7 ”文档 一 词 矩 阵 


lost win team score music happy sad | coach 


xe | 4 | 2 | se | oo fe [7 | oe | 
ees | 1 | omBo[ s jJ s [or ju [os loco 
xm | 9 | 5 | 7 jJ o? se s] > 


两 个 文档 之 间 相 似 度 的 计算 公式 为 : 


3. HAZ 


cos(1,]) = — — —— 


l 


(SEPARA FSSEFAR BRAM BAA ERERAA,, STM, WRAL BU DAR. 


连续 属性 的 SSE 计 算 公式 为 : 


Saks = 


文档 数据 的 SSE 计 算 公 式 为 : 


K 


> > dist(e,,x)” 


I=] x e E; 


; 
SSE = > > cosine( e, ,x)^ 


复 Ei 的 聚 类 中 心 ei 计 算 公 式 为 : 


a 


下 面 结 合 具体 案例 来 实现 本 节 开 始 提出 的 问题 。 


t=] x € E; 


e = Lys 


n; xe; 


A68 符号 表 


含义 
FE 2e PS) BL 
第 i Pi 
XR CREAR) 
fik E; 的 聚 类 中 心 
数据 集中 样本 的 个 数 
第 iA PEAS TX 


部 分 餐饮 客户 的 消费 行为 特征 数据 如 表 6-9 所 示 。 根 据 这 些 数 据 将 客户 分 成 不 同 客户 群 ， 并 评价 这 些 客户 群 的 价值 。 


表 6-9 消费 行为 特征 数据 


(6-7) 


(6-8) 


(6-9) 


(6-10) 


1086 


执行 K(-Means 聚 类 算法 输出 的 结果 见 表 6-10。 


RO10 聚 类 算法 输出 结果 


PRD TE 


对 不 同 客户 分 群 画 出 其 概率 密度 国 数 图 ， 通 过 图 6-8~ 图 6-10 能 直观 地 比较 不 同 客户 群 的 价值 。 


和 餐饮 客户 R 特 征 的 PDF 餐饮 客户 FE 特 征 的 PDF 餐饮 和 洛 尸 M 特 征 的 PDF 
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餐饮 客户 R 特 征 的 PDF 餐饮 客户 F 特 征 的 PDF 
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图 6-9 ”分群 2 的 概率 密度 函数 图 
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图 6-10 “分 群 3 的 概率 密度 函数 图 
客户 价值 分 析 : 


分 群 1 的 特点 : R 间 隔 相 对 较 小 ， 主 要 集中 在 0~40 天 ; 消费 次 数 集中 在 5~25 次 ; 消费 金额 在 500~2000。 


分 群 2 的 特点 : R 间 隔 处 于 中 等 水 平 ， 间 隔 分 布 在 20~40 天 ; 消费 次 数 集中 在 2~10 次 ; 消费 金额 在 200~ 1000。 


分 群 3 的 特点 : R 间 隔 相 对 较 大 ， 间 隔 分 布 在 30~60 天 ; 消费 次 数 集中 在 1~6 次 ; 消费 金额 在 0~ 200, 


密度 


a SE 
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餐饮 客户 M 特 征 的 PDF 


0.0005 0.0010 0.0015 
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餐饮 客户 M 特 征 的 PDF 


对 比分 析 : 分 群 1 时 间 间 隔 较 短 ， 消 费 次 数 多 ， 而 且 消 费 金额 较 大 ， 是 高 消费 高 价值 人 群 。 分 群 2 的 时 间 间 隔 、 消 费 次 数 和 消费 金额 处 于 中 等 水 平 。 分 群 3 的 时 间 间 隔 较 长 ， 消 费 次 数 和 消费 金额 处 于 较 


低 水 平 ， 是 价值 较 低 的 客户 群体 。 


6.2.3 Mahout 中 K-Means 算 法 的 实现 原理 


在 Mahout 中 ，K-Means 算 法 由 两 大 部 分 组 成 : 外 部 的 循环 ， 即 算法 的 准则 函数 不 满足 时 要 继续 的 循环 ;循环 的 主体 部 分 ， 即 算法 的 主要 计算 过 程 。Mahout 中 实现 的 K-Means 算 法 和 上 面 对 应 ,分 别 
使 用 KmeansDriver 来 设置 循环 ， 使 用 KmeansMapper、KmeansReducer (KmeansCombiner 设 置 后 ， 算 法 运行 速度 会 提高 ) 作为 算法 的 主体 部 分 。 该 算法 的 输入 主要 包含 两 个 路 径 (或 者 说 文件 ) : 数 
据 的 路 径 和 初始 聚 类 中 心 向 量 的 路 径 ， 即 包含 k 个 聚 类 中 心 的 文件 。 这 里 要 求 数据 都 是 序列 化 的 文件 ， 同 时 要 求 输入 数据 的 key 设 置 为 Text (这 个 应 该 没有 做 硬性 要 求 ) ，value 设 置 为 VectorWritable (这 
是 硬性 要 求 ) 。 其 实在 该 算法 中 ， 可 以 设置 参数 来 自动 提取 原始 数据 中 的 k 个 值 作为 初始 中 心 点 的 路 径 ， 当 然 ， 如 果 用 户 要 自己 提供 初始 中 心 点 的 文件 ， 也 可 以 通过 Canopy 算 法 (Mahout 中 的 另 一 个 聚 类 
算法 ) 来 得 到 聚 类 的 中 心 点 作为 K-Means 算 法 的 初始 中 心 点 文件 。 


该 算法 在 KmeansDriver 中 通过 不 断 循 环 使 用 输入 数据 和 输入 中 心 点 来 计算 输出 这 里 的 输出 都 定义 在 一 个 clusters-N 的 路 径 中 ，N 是 可 变 的 ) 。 输 出 同样 是 序列 文件 ，key 是 Text 类 型 ，value 是 Cluster 
类 型 。 该 算法 的 原理 如 图 6-11 所 示 。 


KMeansMapper KMeansReducer 


KMeansCombiner 
l 
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K MeansDriver 


图 6-11 K-Means 算 法 的 原理 


KmeansDriver 通 过 判断 算法 计算 的 误差 是 否 达到 阔 值 或 者 算法 循环 的 次 数 是 否 达到 给 定 的 最 大 次 数 来 控制 循环 。 在 循环 过 程 中 ， 新 的 聚 类 中 心 文件 路 径 (一 般 命 名 为 clusters-N) 被 重新 计算 得 到 ， 这 
个 计算 是 根据 前 一 次 的 中 心 点 和 输入 数据 计算 得 到 的 。 最 后 一 步 ， 是 通过 一 个 KmeansMapper 根 据 最 后 一 次 的 中 心 点 文件 来 对 输入 文件 进行 分 类 ， 计 算得 到 的 结果 放 入 文件 名 为 clusteredPoints 文 件 夹 
中 ， 这 次 任务 没有 combiner 和 reducer 操 作 。 


KmeansMapper 在 setup 国 数 中 读 取 输 入 数据 ， 然 后 根据 用 户 定 义 的 距离 计算 方法 把 这 些 输入 放 入 最 近 的 聚 类 中 心 复 中， 输出 的 key 是 类 的 标签 ， 输 出 的 value 是 类 的 表示 值 ; KmeansCombiner 的 输 
入 即 是 mapper 的 输出 ， 然 后 把 这 些 输 出 整合 ， 得 到 总 的 输出 ; KmeansReducer 通 过 设 定 一 个 reducer 来 计算 ,接收 所 有 combiner 的 输出 ， 把 相同 key 的 类 的 表示 值 整 合 ， 并 输出 。 这 3 个 类 的 输入 输出 
key-value 对 如 表 6-11 所 示 。 


46-11 K-Means# A 89 far A Fat th key-value xf 


KmeansMapper ClusterWritable 
KmeansCombiner ClusterWritable 
KmeansReducer ClusterWritable 


在 通常 情况 下 ，combiner 的 输入 和 输出 的 key-value 对 相同 。 


6.24 动手 实践 


1) 下 载 "02- 上 机 实验 /sc.txt” 数据 到 Hadoop 集 群 客户 端 ， 并 上 传 到 云 平台 。 


# hadoop fs -put /opt/sc.txt /user/root/sc.txt 
# hadoop fs -ls -R /user/root 
-rw-r--r-- 3 root supergroup 288972 2015-05-30 16:34 /user/root/sc.txt 


2) 将 文本 文件 转 为 序列 文件 。 


# hadoop jar /opt/mahout-distribution-0.10.0/mahout-integration-0.10.0.jar org.apache.mahout.clustering.conversion.InputDriver --input /user/root/sc.txt --output /user/root/kn 
15/05/30 17:06:14 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032 

15/05/30 17:06:14 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to re 
15/05/30 17:06:15 INFO input.FileInputFormat: Total input paths to process : 1 

15/05/30 17:06:15 INFO mapreduce.JobSubmitter: number of splits:1 

15/05/30 17:06:15 INFO mapreduce.JobSubmitter: Submitting tokens for job: job 1432825607351 0137 

15/05/30 17:06:16 INFO impl.YarnClientImpl: Submitted application application 1432825607351 0137 

15/05/30 17:06:16 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application 1432825607351 0137/ 

15/05/30 17:06:16 INFO mapreduce.Job: Running job: job 1432825607351 0137 

15/05/30 17:06:27 INFO mapreduce.Job: Job job 1432825607351 0137 running in uber mode : false 

15/05/30 17:06:27 INFO mapreduce.Job:map 0% reduce 0% 


15/05/30 17:06:36 INFO mapreduce.Job:map 100% reduce 0% 
15/05/30 17:06:36 INFO mapreduce.Job: Job job 1432825607351 0137 completed success 
15/05/30 17:06:37 INFO mapreduce.Job: Counters: 30 7 
File System Counters 
FILE: Number of bytes read=0 
FILE: Number of bytes written=105749 
FILE: Number of read operations=0 
FILE: Number of large read operations=0 
FILE: Number of write operations=0 
HDFS: Number of bytes read=289073 
HDFS: Number of bytes written-335470 
HDFS: Number of read operations-5 
HDFS: Number of large read operations=0 
HDFS: Number of write operations-2 
Job Counters 
Launched map tasks-1 
Data-local map tasks=1 
Total time spent by all maps in occupied slots (ms)-7021 
Total time spent by all reduces in occupied slots (ms)=0 
Total time spent by all map tasks (ms)-7021 
Total vcore-seconds taken by all map tasks-7021 
Total megabyte-seconds taken by all map tasks-7189504 
Map-Reduce Framework 


Map inpu 
Map outp 


t records-600 
ut records-600 


Input 


Spilled 
Failed Shuf 
Merged Map ou 


GC 
CPU 


Total 
Input 


File 


split bytes-101 


Records=0 


commit 
Format 


ted 


(ms) 


Fles-0 
tputs=0 
time elapsed (ms)=56 
time spent 
Physical memory (bytes) 
Virtual memory (bytes) 


=1250 


heap usage 


snapshot=1 
snapshot=11 


10944256 
67806464 
15154304 


Counters 
Bytes Read-288972 

Output Forma 
Bytes Written-335470 


t Counters 


3) 执行 Mahout 的 K-Means 任 务 。 


(bytes)= 


fully 


# ./mahout kmeans -i /user/root/kmeans out/part-m-00000 -o output -c input/center -k 2 -x 5 -cl 
Running on hadoop, using /opt/hadoop-2.6.0/bin/hadoop and HADOOP CONF DIR= 
MAHOUT-JOB: /opt/mahout-distribution-0.10.0/mahout-examples-0.10.0-job.jar 
15/05/30 17:21:44 WARN MahoutDriver: Unable to add class: org.apache.mahout.utils.clustering.ClusterDumper 
15/05/30 17:21:45 INFO AbstractJob: Command line arguments: (--clustering-null, --clus- 
ters-[input/center], --convergenceDelta-[0.5], --distanceMeasure- [org.apache.mahout. 
common.distance.SquaredEuclideanDistanceMeasure], --endPhase-[2147483647], --input-[/ 
user/root/kmeans out/part-m-00000], --maxIter=[5], --method-[mapreduce], --numClus- 
ters-[2], --output-[output], --startPhase-[0], --tempDir-[temp]] 
15/05/30 17:21:45 WARN NativeCodeLoader: Unable to load native-hadoop library for your platformhttp://www.hzcourse.com/resource/readl 
15/05/30 17:21:48 INFO CodecPool: Got brand-new compressor [.deflate] 
15/05/30 17:21:48 INFO RandomSeedGenerator: Wrote 2 Klusters to input/center/part-randomSeed 
15/05/30 17:21:49 INFO KMeansDriver: Input: /user/root/kmeans out/part-m-00000 Clusters In: input/center/part-randomSeed Out: output 
15/05/30 17:21:49 INFO KMeansDriver: convergence: 0.5 max Iterations: 5:- 
15/05/30 17:21:50 INFO JobSubmitter: number of splits:1 
15/05/30 17:21:51 INFO JobSubmitter: Submitting tokens for job: job 1432825607351 0138--- 
15/05/30 17:22:27 INFO Job: Job job 1432825607351 0138 completed successfully: 
Map-Reduce Framework 

Map input records-600 

Map output records-2 

Map output bytes-3554 

Map output materialized bytes=3568 

Input split bytes=118 

Combine input records=0 

Combine output records=0 

Reduce input groups=2 

Reduce shuffle bytes=3568 

Reduce input records=2 

Reduce output records=2::: 
15/05/30 17:22:27 INFO RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032 
15/05/30 17:22:27 INFO FileInputFormat: Total input paths to process : 1 
15/05/30 17:22:27 INFO JobSubmitter: number of splits:1 
15/05/30 17:22:27 INFO JobSubmitter: Submitting tokens for job: job 1432825607351 0139:- 
15/05/30 17:23:03 INFO Job: Job job 1432825607351 0139 completed successfully: 

Map input records-600 

Map output records-2 

Map output bytes=4634::- 

Reduce input groups-2 

Reduce shuffle bytes=4648 

Reduce input records-2 

Reduce output records=2::: 
15/05/30 17:23:03 INFO KMeansDriver: Clustering data 
15/05/30 17:23:03 INFO KMeansDriver: Running Clustering 
15/05/30 17:23:03 INFO KMeansDriver: Input: /user/root/kmeans out/part-m-00000 Clusters In: output Out: output: 
15/05/30 17:23:03 INFO Job: Running job: job 1432825607351 0140…. 
15/05/30 17:23:28 INFO Job: Job job 1432825607351 0140 completed successfully: 

Map-Reduce Framework 

Map input records-600 

Map output records=600::: 
15/05/30 17:23:28 INFO MahoutDriver: Program took 103505 ms (Minutes: 1.7250833333333333) 


# ./mahout clusterdump -i /user/root/output/clus 


ters-2-final 


Running on hadoop, using /opt/hadoop-2.6.0/bin/hadoop and 


MAHOUT-JOB: 


HADOOP CONF 


DIR= 


/opt/mahout-distribution-0.10.0/mahout-examples-0.10.0-job.jar 
(--dictionaryType- [text 
ideanDistanceMeasure] 

--outputFormat 


15/05/30 17:45:58 INFO AbstractJob: Command line arguments: 

distanceMeasure- [org.apache.mahout.common.distance.SquaredEucl 

endPhase-[2147483647], --input-[/user/root/output/clusters-2-final], 

-[TEXT], --startPhase-[0], M hee [temp] ) 

{"r": [3.446,4.289,5.791,6.635,6.023,4.884,4.189,4.711,5.254,5.86,5.64,5.256,5.684,5. 
6.021,6.407, 6.495, 6.83,6.593,6.289,6. 195, 6.043, 6.488, 7.274, 7.258, 7.893, 7.491, 7.597, 


7.639,8.126,8.16 


9.125,9.493,9.882,10.555, 


10.916,10.998,10. 


7,8.41 


985, 


29.787,27.996,26.903,26.61 


4,26.4 


4,8.518,8.761,9.051,8.839,8.598,8.779,8.864,8.64,8.534,9.026, 
10.535,10.159,9.958,9.883,9.967,9.888,9.784,10.062,10.427, 
Py LST) 5 


ec": (30.034, 31.547, 32.743,32.791,32.321,31.107, 


(2s 421, 28.757,29.674, 30. 


14,30.467,30.226,29.5,28.875, 


28.12,27.498,26.379,26.409, 26. 562, 26. 541, 26.469,26. 976, 26.998,26.64,26.434,26.023, 
25.649,25.354,25.107,24.505,24.43,23.442,23.342,22.581,22.634,22.783,22.86,23.159, 
23.127,23.063,23.2177,23.109,22. 966, .692, 22.113,21.9] 4,21.521,21.462,21.187,21.68, 
21.987,21.976,21.792,21.42,21.725], :400, "identifier":"VL-24"] 

("r":[3.584, “ 547, Ph 364,3.517,3.845, 3. 699,3.645,3.525,3.86,3.884,3.731,3.849,4.192,3.984, 
1.523,4.139,4.502,4.7726,4.963,5.029,5.205,6.186,5.982,5.931,6. 425, 6.429,6.616,6.104,6.426, 


6.416,6.647, 7. 02,6. 689, 6.319,6.349,6.15,5.669,5.575,5.161,5.191 


,4.678,5.068,4.967, 4.973, 


2 5.496,5.153,5.324,5.38,5.585,5,506,5.901,5.665,5.481,5.749,5.914,6.14, 6.063, 
6.093],"c":[29.996,29.646,30.205,31.106,30.627,31.359,31.194,31.447,31.587,31. 7771, 

3 662! 32.16, 32.087,32.49,32.551,32.65,32.811,33.164,33.248,33.476,34.088,34.7749, 35.018 
35.982,36.18,37.032,37.426,37.404,38.34,38. 665, 38.148,39.387,39.828,40.466,40.818, 
41.476,42.316,42.564, 42. 2 43.602,43.618,44.298,44.515,44.506,44.253,45.128,45.119, 
44.818,45.067,45.424,45.41,45.709,45.91,46.318,46.515,46.765,46.826,46.529,47.188, 

j| ud uc uM 

15/05/30 17:46:01 INFO ClusterDumper: Wrote 2 clusters 

15/05/30 17:46:01 INFO MahoutDriver: Program took 2824 ms (Minutes: 0.047066666666666666) 


6.3 ”关联 规则 


Book?path-/openresources/teach ebook/uncompr 


Job: The url to track the job: http://master:8088/proxy/applica 


€ 


下 面 通过 和 餐饮 企业 中 的 一 个 实际 情景 引出 关联 规则 的 概念 。 客 户 在 餐厅 点 餐 时 ， 面 对 菜单 中 大 量 的 菜品 信息 ， 往 往 无 法 迅速 找到 满意 的 菜品 ， 既 增加 了 点 菜 的 时 间 ， 又 降低 了 客户 的 就 餐 体验 。 实 际 
上 ,菜品 的 合理 搭配 是 有 规律 可 循 的 : 顾客 的 饮食 习惯 、 菜 品 的 荤 素 和 口味 ， 有 些 菜品 之 间 是 相互 关联 的 ， 而 有 些 菜 品 之 间 是 对 立 或 竞争 关系 (RAK) ， 这 些 规 律 都 隐藏 在 大 量 的 历史 菜单 数据 中 ， 如 果 
能 够 通过 数据 挖掘 发 现 客户 点 餐 的 规则 ， 就 可 以 快速 识别 客户 的 口味 ， 当 他 下 了 某 个 菜品 的 订单 时 ， 推 荐 相关 联 的 菜品 ， 引 导 客户 消费 ， 提 高 顾客 的 就 餐 体 验 和 餐饮 企业 的 业绩 水 平 。 


关联 规则 分 析 也 称 为 购物 篮 分析 ， 最 早 是 为 了 发 现 超市 销售 数据 库 中 不 同 商品 之 间 的 关联 关系 。 例 如 ， 一 个 超市 的 经 理想 要 更 多 地 了 解 顾客 的 购物 习惯 ,如 “ 哪 组 商品 可 能 会 在 一 次 购物 中 同时 购 
买 ? ”或 者 “ 某 顾客 购买 了 个 人 电脑 ， 那 么 该 顾客 三 个 月 后 购买 数码 相机 的 概率 有 多 大 ? ”他 可 能 会 发 现 购买 了 面包 的 顾客 非常 有 可 能 会 同时 购买 牛奶 ， 这 就 导出 了 一 条 关联 规则 “面包 = > 牛奶 ”， 其 中 面 
包 称 为 规则 的 前 项 ， 而 牛奶 称 为 后 项 。 通 过 降低 面包 售 价 进行 促销 ， 而 适当 提高 牛奶 的 售 价 ， 关 联 销售 出 的 牛奶 就 有 可 能 增加 超市 整体 的 利润 。 


关联 规则 分 析 是 数据 挖掘 中 最 活跃 的 研究 方法 之 一 ， 目 的 是 在 一 个 数据 集中 找 出 各 项 之 间 的 关联 关系 ， 而 这 种 关系 并 没有 在 数据 中 直接 表现 出 来 。 
6.3.1 ”常用 的 关联 规则 算法 
常用 的 关联 算法 如 表 6-12 所 示 。 
表 6-12 常用 的 关联 规则 算法 
算法 名 称 算法 描述 


是 关联 规则 最 常用 也 是 最 经 典 的 挖 据 频繁 项 集 的 算法 ， 其 核心 思想 是 通过 连接 产生 候选 项 及 其 
支持 度 ， 然 后 通过 剪 枝 生 成 频繁 项 集 


eocen | 针对 Apriori 算法 固有 的 多 次 扫描 事务 数据 集 的 缺陷 ， 提 出 的 不 产生 候选 频繁 项 集 的 方法 。Aprior 
| 和 FP- Growth 都 是 寻找 频繁 项 集 的 算法 
Eclat 算法 Eclat 算法 是 一 种 深度 优先 算法 ， 采 用 垂直 数据 表示 形式 ， 在 概念 格 理论 的 基础 上 ， 利 用 基于 前 
级 的 等 价 关 系 将 搜索 空间 划分 为 较 小 的 子 空间 
It ep 分 析 和 确定 各 因素 之 间 的 影响 程度 或 是 若干 子 因素 ( 子 序列 ) 对 主因 素 ( 母 序列 ) 的 贡献 度 而 
` 进行 的 一 种 分 析 方法 


Apriori 


6.3.2 ”FP-Growth 关 联 规则 算法 


数据 库 中 的 部 分 点 餐 数 据 如 表 6-13 所 示 。 


表 6-13 ”数据 库 中 的 部 分 点 餐 数据 


序列 菜品 名 称 
2014/8/21 101 38 AE AR Tr Vu BS 
2014/8/21 103 4 22 RAE E, 


SED] nm] |] W | 


首先 将 表 6-13 中 的 事务 数据 (一 种 特殊 类 型 的 记录 数据 ) 整理 成 关联 规则 模型 所 需 的 数据 结构 ， 从 中 抽取 10 个 点 餐 订 单 作 为 事务 数据 集 ， 为 方便 起 见 ， 将 菜品 
{18491，8842，8693，7794，8705，7898，7890，8970，8824，8765，7654，8908，14890，17865，18908，8234，7234} 分 别 简 记 为 
{a, b, c, d, e, f, g, h, i, j, k, |, m, n, o, p, s) ， 如 表 6-14 所 示 。 


R614 某 餐 厅 事 务 数据 集 


订单 号 菜品 ia 
| 7898, 18491, 8693, 7794, 7890, 8824, 14890, 8234 f, a, c, d, g, i, m, p 
2 18491, 8842, 8693, 7898, 8908, 14890, 18908 a, b, c, f, l, m, o 
3 NENNEN, 
1 b.c, ky s, p 
5 18491, 7898, 8693, 8705, 8908, 8234, 14890, 17865 a; ty. Gp e bh py f. dH 


经 典 FP-Growth 关 联 规则 算法 的 主要 思想 如 下 : 
(1) 第 一 阶段 : 建立 FP 树 


整理 表 6-14 的 数据 得 到 表 6-15 的 原始 数据 ， 对 该 算法 进行 分 析 。 


表 6-15 FP-Growth 算 法 的 原始 数据 集 


I 


6-36 FP-Growth 算 法 更 新 数据 集 


400 c, b 
500 f 8, H. HD 


首先 ， 假 设 频 繁 项 集 阅 值 为 3， 第 1 次 扫描 数据 库 时 ， 计 算 每 个 项 目 出 现 的 次 数 ， 最 后 把 这 些 项 目 按照 出 现 的 次 数 从 大 到 小 排列 ， 得 到 下 面 的 一 维 频繁 项 集 : 


<(£:4), (c:4), (a:3) , (b:3) , (m:3), (p:3)> 


可 以 看 到 f 与 <、a 与 b 出 现 的 次 数 相同 ， 在 这 里 当 项 目 出 现 次 数 相同 时 ， 排 列 顺序 是 随机 的 ， 这 样 可 以 提高 效率 。 


根据 一 维 频 繁 项 集 来 对 原始 数据 集 进 行 排序 和 删 减 ， 主 要 操作 是 把 原始 数据 集中 的 每 条 记录 按照 一 维 频繁 项 集 进 行 排序 ， 然 后 删除 没有 在 一 维 频繁 项 集中 出 现 的 项 目 (如 果 项 目 出 现 的 次 数 小 于 给 定 的 
痊 值 ， 比 如 ， 前 面 的 3， 该 项 目 就 被 删除 ) ， 得 到 如 表 6-16 所 示 的 更 新 数据 集 。 


根据 表 6-15 的 更 新 数据 集 就 可 以 建立 FP 树 了 ， 但 是 首先 要 明确 如 何 建 立 FP 树 ， 即 建立 的 规则 是 什么 。 其 实 建立 的 规则 不 算 复杂 ， 具 体 如 下 : 
“ 树 的 根 为 根 节点 ， 定 义 为 null; 

“ 针对 事务 集 的 每 条 事务 进行 插入 节点 操作 ， 每 条 事务 的 项 目 作 为 一 个 节点 ， 每 个 节点 包含 一 个 名 称 、 一 个 次 数 属性 ; 

. 若 插入 事务 前 面 n 个 项 目 在 树 中 有 相同 的 路 径 ， 则 不 用 新 建 节点 ， 直 接 把 相同 路 径 包 含 节点 的 数目 加 1 即 可 ; 


. 车 插入 的 事务 没有 项 目 在 树 中 存在 路 径 ， 则 直接 新 建 一 个 节点 ; 


. 在 建树 时 附加 一 个 叫 作 Header Table 的 表 ， 该 表 就 是 一 维 频繁 项 目 集 ，Header Table 中 的 元 素 含有 指向 树 中 第 一 次 出 现 同名 节点 的 指针 ; 
. 树 中 节点 都 含有 指向 下 一 个 同名 节点 的 指针 ， 车 没有， 则 指针 指向 空 。 
Qi 上面 第 三 步 中 的 路 径 是 指 从 根 节 点 开始 到 叶子 节点 的 路 径 。 
根据 上 面 的 规则 及 表 6-16 的 更 新 数据 集 ， 分 析 建 树 的 过 程 如 下 : 
1) 插入 第 一 条 事务 <f，c，a，m，p> 后 ，FP 树 的 形状 如 图 6-12 所 示 。 
图 6-12 中 的 虚线 箭头 代表 指针 ， 由 于 插入 第 一 条 事务 并 没有 包含 b 项 目 ， 所 以 在 树 中 没有 与 Header Table 对 应 的 指针 。 


2) 插入 第 二 条 事务 <f，c，a，b，m> 后 ，FP 树 的 形状 如 图 6-13 所 示 。 


Header Table 
| head of 
Item node-links 
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图 6-12 ”插入 第 一 条 事务 后 的 FP 树 


Header Table 
| head of 
item node-links 
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图 6-13 ”插入 第 二 条 事务 后 的 FP 树 


由 于 插入 的 第 二 条 事务 在 图 6-12 的 FP 树 中 存在 相同 的 路 径 ， 因 此 不 再 新 建 节点 ， 而 是 直接 在 树 中 节点 的 次 数 属性 加 1; 同时 ， 在 树 中 m 项 目 含 有 同名 的 项 目 ， 所 以 要 在 树 中 建立 从 左边 m 节 点 到 右边 m 
节点 的 指针 ， 即 图 6-13 中 左边 (m: 1) 到 右边 (m: 1) 的 虚 箭头 。 


3) 插入 全 部 事务 后 ， 完 整 的 FP 树 如 图 6-14 所 示 。 


Header Table 
| head of 
item node-links 


图 6-14 ”完整 的 FP 树 
下 面 就 可 以 针对 完整 的 FP 树 开始 挖掘 过 程 了 。 
(2) 第 二 阶段 : 挖掘 FP 树 
挖掘 的 步骤 如 下 : 
1) 从 图 6-14 的 Header Table 中 的 最 后 一 个 项 目 开始 ， 找 Header Table 中 项 目 在 树 中 的 同名 节点 ， 然 后 在 此 节点 往 上 遍历 一 直到 根 节 点 ， 得 到 一 条 路 径 ; 
2) 找 下 一 个 同名 节点 ， 向 根 节点 遍历 得 到 另外 的 一 条 路 径 ， 直 到 没有 同名 节点 为 止 ; 
3) 把 上 面 得 到 的 路 径 作 为 原始 事务 集 ， 重 新 调用 第 一 阶段 的 建树 过 程 ， 重 新 建立 一 棵 FP 树 ， 不 过 这 棵 树 是 以 Header Table 中 的 元 素 作为 根 节点 的 ， 且 每 次 递归 调用 建树 时 根 节 点 项 目 革 加 ; 
4) 若 上 面 建立 好 的 FP 树 只 有 一 个 节点 ， 并 且 其 节点 数目 小 于 阐 值 ， 则 输出 该 节点 和 根 节点 作为 频繁 项 集 ; 
5) 遍历 完 Header Table 中 所 有 的 项 目 后 ，FP 树 挖掘 完毕 。 
以 p 项 目 为 例 ， 在 树 中 的 同名 节点 向 上 遍历 到 根 节点 可 以 得 到 两 条 路 径 : <f:2, c:2, a:2, m:2>，<c:1，b: 1>， 以 这 两 个 事务 作为 原始 事务 集 ， 调 用 建树 过 程 ， 建 立 的 FP 树 如 图 6-15 所 示 。 


由 于 遍历 p 项 目 只 得 到 一 棵 FP 树 ， 所 以 直接 输出 如 下 频繁 项 集 : 


<cp:3> 


再 比如 ， 以 m 项 目 为 例 : 在 树 中 的 同名 节点 向 上 遍历 到 根 节点 可 以 得 到 两 条 路 径 : «f:2, c:2, a:2>, <f:1, ¢:1, a:1,b:1>， 以 这 两 条 事务 作为 原始 事务 集 ， 调 用 建树 过 程 ， 所 建立 的 FP 树 
如 图 6-16 所 示 。 


Header Table 
| head of 
item node-links 


Header Table 
| head of 
item node-links 


图 6-16 ”以 m 项 目 为 根 节点 建立 的 FP 树 


建立 好 树 后 ， 可 以 对 这 棵 树 进行 挖掘 ， 挖 掘 过 程 和 上 面 的 一 样 。 所 以 根据 Header Table 建 立 好 的 树 分 别 如 图 6-17 所 示 。 


Header Table 


Header Table (am) Header Table (cm) head of 
head of beata 


item node-links item node-links 


item node-links 


图 6-17 ”以 m 项 目 为 根 节点 建立 的 子 FP 树 


根据 图 6-17，m 项 目 输出 的 频繁 项 集 如 下 : 


<am: 3>, <cam: 3>, <fam: 3>, <fcam: 3>, «cm:3», «£cm:3», «£m: 3> 


按照 上 面 的 挖 气 过程， 挖掘 出 的 所 有 频繁 项 集 如 表 6-17 所 示 。 


表 6-17 MERE 


项 目 频繁 项 集 


<cop..3 > 
m cum». Scams >, «Im: 3». «dpam32, <ems>. «Imjo. <ims> 
b «o» 
a €ra:3J >, <fa:3>, <tears > 
C €i 35 
f «o» 


就 第 一 条 输出 结果 进行 解释 : 客户 同时 点 菜品 c 和 pp 的 支持 度 是 3， 所 以 客户 点 了 菜品 c， 再 点 菜品 p 的 概率 是 比较 大 的 。 知 道 了 这 些 ， 就 可 以 对 顾客 进行 智能 推荐 ， 增 加 销量 同时 满足 客户 需求 。 
6.3.3 Mahout 中 Parallel Frequent Pattern Mining 算 法 的 实现 原理 


在 Mahout 中 ，Parallel Frequent Pattern Mining 算 法 一 共 包含 以 下 5 个 过 程 : 
1) 由 原始 数据 求 出 一 维 频繁 项 集 并 进行 编码 ; 

2) 根据 编码 后 的 一 维 频繁 项 集 ， 对 原始 数据 进行 分 组 ; 

3) 针对 每 一 个 分 组 数据 分 别 进行 建树 操作 ; 

4) 针对 每 一 棵 建 好 的 FP 树 进行 频繁 项 集 挖掘 ; 


5) 整合 每 哥 FP 树 挖掘 的 频繁 项 集 ， 得 到 最 终 的 频繁 项 集 。 


其 Mapreduce 流 如 图 6-18 所 示 。 


reducer | 


图 6-18 Parallel Frequent Pattern Mining # ;& 89 Mapreduce ji 


根据 图 6-18， 可 以 看 出 Parallel Frequent Pattern Mining 算 法 的 并 行 策略 : 首先 ， 将 原始 数据 集 进行 分 组 ， 针 对 每 组 数据 可 以 使 用 集群 中 的 一 个 节点 来 运行 FP 树 算法 ， 分 别 进行 建树 和 挖掘 操作 ， 这 


样 可 以 达到 并 行 的 目的 。 最 后 ， 整 合 每 个 子 节点 挖掘 的 频繁 项 集 得 到 最 终 的 结果 。 但 是 ， 这 里 有 个 问题 : 把 数据 分 组 后 ， 对 每 棵 子 树 进行 挖掘 得 到 的 频繁 项 集 在 最 后 汇总 后 会 不 会 有 一 些 被 漏 掉 了 ?答案 是 
肯定 的 ， 如 果 采 用 的 是 随机 分 组 数据 ， 比 如 按照 文件 中 数据 的 位 置 ， 直 接 把 其 分 为 两 个 部 分 ， 这 样 肯定 会 漏 掉 频繁 项 集 。 所 以 ， 这 里 在 Mahout 中 提出 了 一 种 分 数据 的 方案 ， 使 用 这 种 方案 对 原始 数据 进行 
分 组 ， 对 分 组 后 的 数据 建树 挖掘 ， 得 到 的 频繁 项 集 在 整合 后 是 不 会 被 漏 抒 的。 下 面 根据 上 面 介绍 的 5 个 过 程 一 一 进行 分 析 。 


(1) 求 一 维 频繁 项 集 并 编码 


这 里 使 用 表 6-15 的 数据 集 。 首 先 求 一 维 频繁 项 集 : 利用 单词 计数 算法 求 出 各 个 项 目 出 现 的 次 数 ， 然 后 将 这 个 输出 文件 读 取 到 一 个 列表 中 ， 这 个 列表 是 按照 项 目 出 现 的 次 数 从 大 到 小 排序 的 ， 接 着 进行 项 
目 编码 ， 即 次 数 出 现 最 多 的 项 目 编码 为 0， 以 此 类 推 ， 最 后 把 编码 后 的 列表 写 入 HDFS 文 件 系统 中 的 一 个 文件 中 。 这 个 文件 就 是 一 维 频繁 项 集 编码 后 的 数据 文件 。 参 考 前 面 的 一 维 频繁 项 集 ， 可 以 得 到 表 6-18 
的 编码 表 。 


tem Code 
f 0 


cl 


b 


uw | ky 


3 
Un | 


6-19 更 新 数据 编码 表 


m 
= 
= 
g” 
D | = 
= | 
H3 | tA 
Ja 
un 


46-20 分 组 数据 表 


组 0 组 1 
0, 1, 2, 4, 5-->f, c, a, m, p |4, 5-->m, p 


4-->f, c, a, b, m |3, 4—->b, m 


0, 3-->f, b 3 一 一 > b 
1, 3, 5-->c, b, p 3, 5-->b, p 
0, 1, 2, 4, 5-->f, c, a, m, p |4, 5-->m, p 


(2) 分 组 原始 数据 


假设 把 原始 数据 集 分 为 2 组 ， 那 么 组 编号 就 是 分 组 0 和 分 组 1。 根 据 分 组 的 规则 ( 接 下 来 会 解释 这 个 规则 ) 可 以 得 到 分 组 0 包含 的 项 目 为 <f，c，a，b，m，p>， 分 组 1 包含 的 项 目 为 <b，m，Pp>。 所 谓 的 
分 组 规则 就 是 : 针对 一 条 事务 ， 若 其 中 包含 组 0 和 组 1 的 项 目 ， 则 输出 两 条 事务 ， 分 别 归 为 组 0 和 组 1， 组 0 为 此 条 事务 ， 组 1 为 此 条 事务 截取 相应 的 部 分 得 到 ; 若 其 中 只 含 组 0 的 项 目 ， 而 不 含有 组 1 的 项 目 ， 则 
此 条 事务 只 归 为 组 0; 若 其 中 只 含有 组 1 的 项 目 ， 则 此 条 事务 只 归 为 组 1。 首 先 根据 表 6-16 得 到 更 新 数据 集 的 编码 数据 集 ， 如 表 6-19 所 示 。 


然后 根据 分 组 规则 对 表 6-19 的 数据 编码 表 进行 分 组 ， 分 组 后 的 数据 如 表 6-20 所 示 。 


例如 ， 第 一 条 事务 <f，c，a，m，p> 同 时 包含 了 分 组 0 和 分 组 1 的 项 目 ， 所 以 要 输出 到 两 个 分 组 中 ， 其 中 分 组 0 就 是 <f，c，a，m，p>， 分 组 1 就 是 <m，p>。 这 里 有 读者 可 能 会 误解 ， 那 么 是 不 是 分 组 
0 就 是 原始 事务 集 呢 ? 答案 是 否定 的 ， 分 组 0 不 是 原始 事务 集 。 比 如 ， 有 一 条 事务 集 是 <m，Pp> ， 针 对 这 条 事务 进行 分 组 ， 得 到 的 输出 只 会 是 一 条 记录 ， 且 是 分 组 1 的 ， 分 组 0 没有 输出 。 


按照 这 样 的 规则 可 以 保证 分 别 对 组 0 和 组 1 的 数据 进行 建树 挖掘 而 不 会 漏 掉 可 能 的 频繁 项 集 ， 不 过 最 后 整合 时 会 有 重复 的 频繁 项 集 记 录 ， 需 要 去 重 。 

经 过 上 面 的 步骤 就 可 以 对 分 组 数据 进行 建树 挖掘 了 。 

(3) 建立 FP 树 以 及 挖掘 FP 树 

经 过 (2) 分 组 原始 数据 过 程 后 ， 原 始 数据 被 分 为 两 组 ， 这 样 就 可 以 针对 每 个 分 组 中 的 数据 采用 FP-Growth 算 法 简介 中 介绍 的 方法 来 建立 及 挖掘 FP 树 了 。 

(4) 整合 频繁 项 集 

针对 在 (3) 过 程 中 生成 的 频繁 项 集 ， 在 整合 频繁 项 集 这 一 步 使 用 一 个 Job， 包 括 mapper 和 reducer 来 进行 操作 。Mapper 主 要 整合 所 有 分 组 的 频繁 项 集 ， 输 出 给 reducer 进 行 处 理 。Reducer 的 主要 任 


务 是 对 整合 后 的 频繁 项 集 进行 去 重 及 排序 处 理 。 去 重 就 是 去 除 重 复 的 频繁 项 集 ， 排 序 主要 是 针对 频繁 项 集 的 次 数 降序 。 


6.3.4 ”动手 实践 


这 里 使 用 编译 好 的 Mahout 0.9 版 本 进行 上 机 实验 。 


1) 下 载 “02- 上 机 实验 /fp.txt” 数 据 到 Hadoop 集 群 客户 端 ， 并 上 传 到 云 平台 。 


# hadoop fs -put /opt/fp.txt /user/root/fp.txt 
# hadoop fs -ls -R /user/root 
-rw-r--r-- 3 root supergroup 69 2015-05-30 19:53 /user/root/fp.txt 


2) 执行 Mahout 的 FP-Growth 算 法 任务 。 


f hadoop jar /opt/mahout-examples-0.9-job.jar org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -1 /user/root/fp.txt -o /user/root/fp/output -s 3 -k 10 -regex '[,]' -method maprec 
15/05/30 23:01:28 INFO common.AbstractJob: Command line arguments: (--encoding-[UTF-8], - 
-endPhase-[2147483647], --input-[/user/root/fp.txt], --maxHeapSize-[10], --method- 
[mapreduce], --minSupport-[3], --numGroups-[1000], --numTreeCacheEntries-[5], --out 
put-[/user/root/fp/output], --splitterPattern-[[,]], --startPhase-[0], --tempDir-[temp]) 
15/05/30 23:01:30 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032::: 
15/05/30 23:02:10 INFO mapreduce.Job: Job job 1432825607351 0151 completed successfully: 

Map input records-5 

Map output records-33 

Map output bytes-330 


Combine input records-33 
Combine output records-17 
Reduce input groups-17 
Reduce shuffle bytes-79 
Reduce input records-17 
Reduce output records-17 


15/05/30 23:02:10 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032::: 
15/05/30 23:02:43 INFO mapreduce.Job: Job job 1432825607351 0152 completed successfully- 

Map input records=5 

Map output records=20 

Map output bytes-214 


Combine input records-20 
Combine output records-6 
Reduce input groups-6 
Reduce shuffle bytes-70 
Reduce input records=6 
Reduce output records-6 


15/05/30 23:02:44 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032::: 
15/05/30 23:03:16 INFO mapreduce.Job: Job job 1432825607351 0153 completed successfully- 


Map input records=6 
Map output records=14 
Map output bytes=360 


Combine input records=14 
Combine output records=6 
Reduce input groups=6 
Reduce shuffle bytes=105 
Reduce input records=6 
Reduce output records=6 


3) 查看 结果 。 


# hadoop jar /opt/mahout-examples-0.9-job.jar org.apache.mahout.utils.SequenceFileDumper -i /user/root/fp/output/frequentpatterns/part-r-00000 -n 4 
15/05/30 23:11:14 INFO common.AbstractJob: Command line arguments: {--endPhase=[2147483647], --input-[/user/root/fp/output/frequentpatterns/part-r-00000], --numItems-[4], --ste 
Input Path: /user/root/fp/output/frequentpatterns/part-r-00000 

Key class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns 

Max Items to dump: 4 
Key: a: Value: ([c, f 


Key: b: Value: ([b],3) 

Key: c: Value: ([c],4), ([c, fy a, m],3), ([c, fr a],3), (Ic, pl,3), (lc, £173) 
Key: f: Value: ([f],4), ([c, f, a, m],3), ([c, f, al,3), (lc, f],3 

Count: 4 


6.4 协同 过 滤 


餐饮 企业 有 时 会 碰 到 这 样 的 问题 : 
1) 如 何 根据 会 员 数 据 ， 来 对 会 员 进 行 点 餐 推荐 ? 
2) 如 何 针对 一 般 客 户 进行 点 餐 推 荐 ? 


餐饮 企业 遇 到 的 这 些 问题 ， 可 以 通过 协同 过 滤 智 能 推荐 分 析 解 决 。 
6.4.1 ”常用 的 协同 过 滤 算 法 


HEE (collaborative filtering recommendation) 与 传统 的 基于 内 容 过 滤 直 接 分 析 内 容 进行 推荐 不 同 ， 协 同 过 滤 分 析 用 户 兴 趣 ， 在 用 户 群 中 找到 指定 用 户 的 相似 (兴趣) 用 户 ， 综 合 这 些 相似 
用 户 对 某 一 信息 的 评价 ， 形 成 系统 对 该 指定 用 户 对 此 信息 的 喜好 程度 预测 。 


在 餐饮 系统 中 ， 针 对 会 员 的 数据 进行 协同 过 渡 分 析 ， 可 以 找到 相似 兴趣) 用户， 使 用 相似 用 户 的 数据 来 进行 推荐 . 
常用 的 协同 过 滤 算 法 见 表 6-21。 
表 6-21 常用 的 协同 过 滤 算 法 
FE jill 包括 的 主要 算法 
基于 项 目的 协同 过 滤 | 通过 用 户 对 不 同 项 目的 评分 来 评测 项 目 之 间 的 相似 性 ， 基 于 项 目 之 间 的 相似 性 做 出 推荐 
基于 用 户 的 协同 过 滤 | 通过 不 同 用 户 对 项 目的 评分 来 评测 用 户 之 间 的 相似 性 ， 基 于 用 户 之 间 的 相似 性 做 出 推荐 


64.2 ”基于 项 目的 协同 过 滤 算 法 简介 


基于 项 目的 协同 过 滤 算 法 是 根据 用 户 已 有 的 信息 (这 里 的 情景 是 用 户 已 经 购买 的 商品 ) ， 去 推算 出 用 户 可 能 含有 或 即将 含有 的 信息 (在 这 里 就 是 用 户 可 能 会 购买 的 商品 ) ， 这 个 是 应 用 情景 ， 算 法 就 是 
如 何 推 导出 用 户 可 能 会 购买 哪些 商品 的 过 程 。 基 于 项 目的 协同 过 滤 算 法 ， 简 单 来 说 就 是 通过 项 目 之 间 的 相似 性 来 为 用 户 做 推荐 。 下 面 介绍 该 算法 的 基本 原理 ， 其 算法 数据 流程 图 如 图 6-19 所 示 。 


根据 图 6-19 可 以 得 到 下 面 的 基于 项 目的 协同 过 滤 算 法 原理 。 


1) 根据 原始 矩阵 进行 抽取 ， 得 到 项 目 和 矩阵。 所谓 的 项 目 和 矩阵， 就 是 把 评价 过 某 个 项 目的 所 有 用 户 全 部 找 出 来 ， 作 为 这 个 项 目的 项 目 向 量 ， 所 有 的 项 目 都 按照 这 种 方式 求 出 其 对 应 的 项 目 向 量 ， 共 同 组 成 
项 目 和 矩阵 。 


2) 针对 1) 求 出 的 项 目 和 矩阵 ， 使 用 向 量 距 离 计算 公式 (可 以 使 用 皮尔 逊 距 离 、 余 弦 距 离 、 对 数 似 然 距离 等 ) 求 得 每 两 个 项 目 向 量 之 间 的 相似 度 ， 得 到 项 目 相似 度 和 矩阵 。 


3) 根据 原始 数据 进行 抽取 ， 得 到 用 户 和 矩阵 。 所 谓 的 用 户 和 矩阵 ， 就 是 整合 某 个 用 户 评价 过 的 所 有 项 目 ， 得 到 这 个 用 户 的 用 户 向 量 。 所 有 的 用 户 都 按照 这 种 方式 求 出 其 对 应 的 用 户 向 量 ， 共 同 组 成 用 户 矩 
阵 。 


4) 根据 步骤 2) . 3) 求 出 的 项 目 相似 矩阵 、 用 户 和 矩阵 ， 找 出 和 某 个 用 户 评价 过 的 商品 最 相似 的 K 个 项 目 ， 作 为 用 户 推荐 项 目 和 矩阵 。 


对 于 上 面 的 算法 原理 ， 其 中 1) 、2) 联合 过 程 与 3) 的 过 程 其 实 是 可 以 互 换 的 ， 即 先进 行 哪个 步骤 没有 固定 的 要 求 。 在 最 后 求 得 用 户 评价 过 的 商品 最 相似 的 K 个 项 目 ， 其 实 首先 求 得 的 应 该 是 与 用 户 评价 
过 商品 最 相似 的 一 个 项 目 集合 ， 然 后 排除 这 个 集合 中 用 户 已 经 评价 过 的 项 目 ， 最 后 根据 这 个 集合 中 剩余 项 目的 相似 度 大 小 进行 降序 排序 ， 取 出 前 面 的 K 个 项 目 ， 即 得 到 用 户 推荐 项 目 和 矩阵 。 


原始 用 户 数 据 Hi H HERE Jjt H FAEERE P 


userl—item1:pref 
userl—1tem2:pref item1—(ul:p,u2:p,u3:p,...) (2) 11 —(12:simi,13:simi,...) 
item2—(u2:p,u3:p,...) 12—«(11:simi,13:simi,...) 


item—(ul:p,u2:p,...) item—(item:p,item:p,...) 


user1—(11,12,...) 
user2—>(12,13,...) 


user—(11,12,...) 


图 6-19 ”基于 项 目的 协同 过 滤 算 法 数据 流程 图 


6.4.3 Mahout 中 Itembased Collaborative Filtering 算 法 的 实现 原理 


在 Mahout 中 ， 基 于 项 目的 协同 过 滤 算法 的 实现 包含 以 下 6 个 步骤: 
1) 求 出 用 户 矩阵 ; 

2) 求 出 项 目 矩阵 ; 

3) 求 出 项 目 和 矩阵 的 平方 和 | 


4) 根据 项 目 矩 阵 、 项 目 和 矩阵 平方 和 求 出 项 目 相似 度 和 矩阵 ; 


表 6-22 ” 用户- 项目- 评分 原始 数据 表 


userlD itemID prefValue 
5 

3 

2.5 

2 101 2 


5) BER, MAURER, fSSURIP-In ETRIAESBEE; 
6) REAP -HEUER HA EEE, 


这 6 个 步骤 使 用 了 七 个 Job 任 务 来 进行 数据 处 理 ， 其 实 第 1 个 Job 任 务 是 转换 项 目的 数据 格式 ， 就 是 把 项 目的 编号 由 长 整 型 转换 为 整 型 ， 这 里 不 再 进行 介绍 。 下 面 使 用 如 表 6-22 (这 里 只 列 出 了 一 部 分 数 
据 ， 有 具体 参考 “01- 示 例 数 据 /user.txt”) 所 示 的 数据 分 析 Mahout 中 该 算法 的 数据 流 处 理 流程 。 

(1) FAP ERS 

AA, ELO Gana, Ee -MB-ifomesd=s, Z5 T HPEPRMBSBSEPSIRB. feXjzo-22R89800, SHEBUABSRSFXBERRIRO-23B T. 


6-23 A PRR 


userlD itemlD: prefValue 
] 103:7. 5. 102:3. 0... I01:3. 0 
2 101:2. 0, 104:2. 0, 103:5. 0, 102:2. 5 
3 101:2. 5, 107:5.0, 105:4. 5, 104:4. 0 
4 101:5. 0, 106:4. 0, 104:4. 5, 103:3.0 
5 106:4. 0, 105:3. 5, 104:4.0, 103:2. 0, 102:3. 0, 101:4. 0 


在 表 6-23 所 示 的 用 户 矩 阵 表 中 ，itemlID: prefValue 其 实 是 一 个 向 量 ， 该 向 量 的 下 标 是 itemlID， 值 是 prefValue， 所 以 针对 用 户 1， 其 用 户 向 量 的 实际 表示 应 该 是 (如 从 下 标 101 开 始 ， 没 有 数据 则 记 为 
0) [5.0, 3.0, 2.5, 0, 0, 0, 0] 。Mahout 中 使 用 了 一 个 Job 任 务 来 进行 上 面 的 数据 处 理 ， 输 出 的 key/value 对 的 格式 是 <VarLongWritable，VectorWritable> ， 这 里 对 应 的 VarLongWritable 就 是 
itemlD 对 应 的 格式 ，VectorWritable 对 应 的 就 是 用 户 向 量 的 格式 。 


(2) 项 目 矩 阵 
项 目 和 矩阵 的 求法 其 实 与 用 户 矩 阵 一 样 ， 只 是 抽取 的 规则 不 同 而 已 。 根 据 表 6-22 可 以 抽取 得 到 的 项 目 和 矩阵 如 表 6-24 所 示 。 


itemID userlD: prefValue 

101 5:4.0, 4:5.0, 3:2.5, 2:2.0, 1:5.0 
102 3:3. 0, 2:2.5, 1:3.0 

103 5:2.0, 4:30. 2:5.0, 1:5 

104 2:4. 0, 4:4.5, 3:4. 0, 2:2.0 

105 Me 3:4.5 

106 5:4. 0, 4:41. 0 

107 5:5. U 


表 6-25 3AHAEREGE ZA 


itemID norms 
101 70; 25 
102 24. 25 
103 44. 25 
104 56. 25 
105 32.9 
106 34. 
107 25. 0 


在 Mahout 中 同样 使 用 了 一 个 Job 任 务 来 完成 ， 输 出 的 key/value 对 的 格式 是 <IntWritable，VectorWritable> ， 这 里 IntWritable 就 是 itemlD 对 应 的 格式 ，VectorWritable 对 应 的 就 是 项 目 向 量 对 应 的 格 


(3) 项 目 和 矩阵 平方 和 

针对 (2) 中 的 项 目 矩 阵 ， 在 Mahout 中 使 用 另外 的 一 个 Job 任 务 来 对 其 进行 处 理 ， 得 到 项 目 和 矩阵 平方 和 ， 如 表 6-25 所 示 。 

其 实 项 目 和 矩阵 平方 和 就 是 针对 每 个 项 目 向 量 ， 求 其 所 有 项 的 平方 和 而 已 。 例 如 ， 项 目 101 的 项 目 向 量 为 [5.0，2.0，2.5，4.0，5.0] ， 然 后 求 其 平方 和 得 到 值 76.25。 
(4) 项 目 相似 度 矩 阵 


在 Mahout 中 求 项 目 相似 度 和 矩阵 是 由 2 个 Job 任 务 共同 处 理 完 成 的 : 第 一 个 Job 任 务 是 其 项 目 与 项 目 之 间 的 相似 度 ， 首 先 针对 项 目 101 进 行 计 算 ， 然 后 是 102， 以 此 类 推 (这 里 项 目 是 按照 升序 排序 的 ) 。 


因为 在 计算 项 目 101 时 ， 已 经 计算 过 项 目 101 和 项 目 102 的 相似 度 ， 所 以 在 计算 102 项 目 与 其 他 项 目的 相似 度 时 就 不 考虑 101 项 目 了 。 第 二 个 Job 任 务 是 续 接 ， 所 谓 的 续 接 ， 就 是 把 没有 计算 的 项 目 也 加 入 其 他 
项 目 中 。 例 如 ， 在 项 目 101 中 有 项 目 101 和 102 的 相似 度 ， 但 是 在 项 目 102 中 没有 项 目 102 和 项 目 101 的 相似 度 ， 这 时 要 把 101 项 目 中 101 项 目 和 102 项 目的 相似 度 续 接 到 项 目 102 中 ， 最 后 输出 ， 输 出 的 数据 如 
表 6-26 所 示 。 


表 6-26 项 目 相 似 度 矩阵 表 


itemID similarity 
101 107:0. 10, 106:0. 14, 105:0. 11, 104:0. 16, 103:0. 15, 102:0. 14 
102 101:0. 14, 106:0. 15:0. 14, 104:0. 13, 103:0. 20 
103 101:0. 15, 106:0. 14, 105:0. 11, 104:0. 14, 102:0. 20 
104 107:0. 13, 106:0. 18, 105:0.16, 103:0. 14, 102:0. 13, 101:0. 16 
105 107:0. 22, 106:0. 14, 104:0. 16, 103:0. 11, 102:0. 14, 101:0. 11 
106 101:0. 14, 105:0. 14, 104:0. 18, 103:0. 14, 102:0. 15 
107 105:0. 22, 104:0. 15. 101:0. 10 
项 目 相似 度 的 计算 参考 下 面 的 公式 。 
7 
dot, ni = T P 44s (6-11) 


(6-12) 


norms, — 2 * dot, pn + norms, 


其 中 ，I1、12 分 别 代表 项 目 |11 和 项 目 |2，Puil1 代 表 用 户 ui 对 项 目 11 的 评分 ，Puil2 代 表 用 户 ui 对 项 目 12 的 评分 ，normsl1 是 norms 中 对 应 11 的 平方 和 和。 假设 有 102 项 目 和 103 项 目 : 102={5: 3.0, 2: 


2.5, 1: 3.0}, 103={5: 2.0, 4: 3.0, 2: 5.0, 1: 2.5}， 可 以 得 到 dot102*103=26，norms102=24.25，norms103=44.25， 带 入 上 面 的 公式 ， 可 以 得 到 simi102*103=0.20， 可 见 计算 的 项 目 相似 度 与 表 6- 
26 中 的 数据 相同 。 


(5) 用 户 -项 目 相 似 度 和 矩阵 


用 户 -项 目 相似 度 和 矩阵 其 实 就 是 用 户 矩 阵 和 项 目 相似 度 矩 阵 的 一 个 拼接 。 在 Mahout 中 使 用 了 一 个 Job 来 进行 处 理 ， 输 出 key/value 对 的 格式 为 <VarintWritale，VectorAndPrefsWritable>， 即 用 户 对 
应 的 输出 格式 是 VarlntWritable， 用 户 -项 目 相似 度 和 矩阵 的 格式 为 VectorAndPrefsWritable， 拼 接 后 的 用 户 相似 度 和 矩阵 如 表 6-27 所 示 。 


表 6-27 用 户 -项 目 相 似 度 矩阵 表 


userlD user- itemID- similarity 
] | 3.0，| 106: 0. 15, 105:0.14, 104:0. 13, 103:0.20, 102: NaN, 101:0. 14 | 
] [2.5, |106:0.14, 105:0. 11, 104:0. 14, 103: NaN 102:0. 20, 101:0. 15 | 
| 5.0, [107:0.108, 106:0. 14, 105:0. 118, 104:0. 16, 103:0. 15, 102:0.14, 101: NaN] | 
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(6) 用 户 推荐 矩阵 
在 Mahout 中 使 用 一 个 Job 任 务 根据 (5) 中 产生 的 用 户 - 项 目 相 似 度 矩 阵 来 计算 用 户 推荐 矩阵 ， 最 后 得 到 的 结果 如 表 6-28 所 示 。 


表 6-28 M PRB 


userlD user-itemID- similarity 
] | 104: 3. 5838122, 106:3.4916115, 105:3. 473163 | 
2 | 106: 2. 8146582, 105:2.7573717, 107:2.0] 
3 | 106: 3. 694073, 102:3. 657834, 103: 3. 5656683 | 


"107:4. 716343, 105:4. 1627345, 102: 4. 0136285 | 
[ 107: 3. 7592773 | 


CA — 


表 6-28 的 数据 是 根据 公式 6-13 使 用 表 6-27 的 数据 得 到 的 。 


M 
by simi, * pref, 
aa ———— ind 


sumi, 
0 


m= 


其 中 ，similm 是 用 户 U1 针 对 项 目 Im 的 相似 度 和 矩阵 ，prefim 是 用 户 U1 针 对 项 目 Im 的 评分 ， 公 式 求 得 的 只 是 用 户 U1 的 推荐 向 量 。 针 对 所 有 的 用 户 ， 同 样 执行 公式 (6-13) ， 即 可 得 到 用 户 推荐 矩阵 。 


6.4.4 动手 实践 


1) 将 “02- 上 机 实验 /user.txt” 数 据 下 载 到 Hadoop 集 群 客户 端 ， 并 上 传 到 云 平 台 。 


# hadoop fs -put /opt/user.txt /user/root/user.txt 
# hadoop fs -ls -R /user/root 
-rw-r--r-- 3 root supergroup229 2015-05-30 22:17 /user/root/user.txt 


2) 执行 Mahout 的 recommenditembased 命 令 ， 执 行 基于 项 目的 协同 过 滤 算法 任务 。 


# ./mahout recommenditembased-i /user/root/user.txt -o /user/root/output -n 3 -b false 
-s SIMILARITY EUCLIDEAN DISTANCE --maxPrefsPerUser 7 --minPrefsPerUser 2 --maxPrefsIn- 
ItemSimilarity 7 --tempDir /item/temp 
Running on hadoop, using /opt/hadoop-2.6.0/bin/hadoop and HADOOP CONF DIR- 
MAHOUT-JOB: /opt/mahout-distribution-0.10.0/mahout-examples-0.10.0-job.jar 
15/05/30 22:22:15 INFO AbstractJob: Command line arguments: {--booleanData=[false], --endPhase-[2147483647], --input-[/user/root/user.txt], --maxPrefsInItemSimilarity-[7], --me 
15/05/30 22:22:15 INFO AbstractJob: Command line arguments: {--booleanData=[false], --endPhase-[2147483647], --input-[/user/root/user.txt], --minPrefsPerUser-[2], --output-[/it 
15/05/30 22:22:22 INFO Job: The url to track the job: http://master:8088/proxy/application 1432825607351 0141/ 
15/05/30 22:22:22 INFO Jobs Running job: job 1432825607351 0141…: 
15/05/30 22:23:09 INFO Job: Job job 1432825607351 0141 completed successfully: 
Map input records-21 
Map output records-21 


15/05/30 22:23:10 INFO RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032 - 
15/05/30 22:23:47 INFO Job: Job job 1432825607351 0142 completed successfully: 

Map input records-21 

Map output records-21 


15/05/30 22:23:47 INFO RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032 - 
15/05/30 22:24:23 INFO Job: Job job 1432825607351 0143 completed successfully: 

Map input records-5 

Map output records-21 


Combine input records-21 
Combine output records-7 
Reduce input groups-7 
Reduce shuffle bytes-118 
Reduce input records-7 
Reduce output records=7 


15/05/30 22:24:24 INFO AbstractJob: Command line arguments: (--endPhase-[2147483647], --excludeSelfSimilarity-[true], --input-[/item/temp/preparePreferenceMatrix/ratingMatrix], 
15/05/30 22:24:57 INFO Job: Job job 1432825607351 0144 completed successfully: 
Map input records-7 


Map output records=1 
Map output bytes=52 
Combine input records=1 
Combine output records-1 
Reduce input groups=1 
Reduce shuffle bytes-42 
Reduce input records=1 
Reduce output records=0 
15/05/30 22:24:57 
15/05/30 22:25:33 
Map input records-7 
Map output records-24 
Combine input records-24 
Combine output records-8 
Reduce input groups-8 
Reduce shuffle bytes-158 
Reduce input records-8 
Reduce output records-5 
15/05/30 22:25:33 
15/05/30 22:26:06 


Map input records-5 


Map output records-21 
Map output bytes-744 
Combine input records-21 
Combine output records-7 
Reduce input groups-7 
Reduce shuffle bytes=164 
Reduce input records-7 
Reduce output records=7 

15/05/30 22:26:06 

15/05/30 22:26:41 
Map input records-7 
Map output records-25 
Combine input records-25 
Combine output records-7 
Reduce input groups-7 
Reduce shuffle bytes=273 
Reduce input records-7 
Reduce output records=7 

15/05/30 22:26:41 

15/05/30 22:27:42 


Map input records-12 
Map output records-28 
Map output bytes-453 


Combine input records-0 
Combine output records=0 
Reduce input groups-7 

Reduce shuffle bytes-324 
Reduce input records-28 
Reduce output records=7 


15/05/30 
15/05/30 


22:27:42 
22:28:18 
Map input records=7 

Map output records=21 


Combine input records=0 
Combine output records=0 
Reduce input groups=5 
Reduce shuffle bytes=298 
Reduce input records=21 
Reduce output records=5 


1G ¢ 


15/05/30 22:28:18 


INFO MahoutDriver: Program 


3) 查看 输出 结果 。 


INFO RMProxy: Connecting to ResourceManager at master/1 
INFO Job: Job job 1432825607351 0145 completed success! 


INFO RMProxy: Connecting to ResourceManager at master/1 
INFO Job: Job job 1432825607351 0147 completed success! 


INFO RMProxy: Connecting to ResourceManager at master/1 
INFO Job: Job job 1432825607351 0148 completed success! 


INFO RMProxy: Connecting to ResourceManager at master/] 
INFO Job: Job job 1432825607351 0149 completed success! 


92.168.222.131:8032:- 
Fully: 


INFO RMProxy: Connecting to ResourceManager at master/192.168.222.131:8032-- 
INFO Job: Job job 1432825607351 0146 completed successi 


Fully: 


92.168.222.131:8032-- 
Fully: 


92.168.222.131:8032-- 
Fully: 


92.168.222.131:8032:- 
Fully: 


took 362485 ms (Minutes: 6.041416666666667) 


# hadoop fs -cat /user/root/output/part-r-00000 
15/05/30 22:51:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plati 
1[104:3.5838122,106:3.4916115,105:3.473163] 
2[106:2.8146582,105:2.7573717,107:2.0] 
3[106:3.694073,102:3.657834,103:3.5656683] 
1[107:4.716343,105:4.1627345,102:4.0136285] 
5[107:3.7592773] 
6.5 人 小结 


本 章 主 要 根据 数据 挖掘 的 应 用 分 类 ， 重 点 介绍 对 应 
一 些 启发 ， 思 考 如 何 改进 或 创造 更 好 的 挖掘 算法 。 


归纳 起 来 ， 数 据 挖 掘 技 术 的 基本 任务 主要 体现 在 分 


以 及 Mahout 实 现 K-Means 算 法 的 原理 ， 关 联 规则 主要 


过 滤 算 法 的 原理 。 介 绍 完 每 个 算法 的 原理 后 ， 提 供 每 个 


BTE ”法 律 咨询 数据 分 析 与 服务 推荐 


` 第 8 章 ” 电 商 产 品评 论 数据 情感 分 析 


RIE ”航空 公司 客户 价值 分 析 
. 第 10 章 ”基站 定位 数据 商 圈 分 析 


HUE 互联 网 电影 智能 推荐 


| 第 12 章 ”家电 故障 备件 储备 预测 分 析 


的 数据 挖掘 建 模 方法 及 传统 和 Mahout 实 现 过 程 。 
类 、 聚 类 、 关 联 规则 、 智 能 推荐 4 个 方面 。 分 类 主要 介 
fr 


算法 对 应 的 上 机 实践 ， 使 读者 加 深 对 算法 的 理解 。 


formhttp: //www.hzcourse.com/resource/readl 


通过 对 本 章 的 学 习 ， 可 在 以 后 的 数据 挖掘 过 程 中 ， 采 用 适当 的 算法 实现 


Book?path-/openresources/teach ebook/ur 
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-Js FE 


应 用 ， 更 希望 能 给 读者 


绍 了 决策 树 算法 的 原理 以 及 Mahout 实 现 决策 树 算法 的 原理 ， 聚 类 主要 介绍 K-Means 算 法 的 原理 
绍 FP-Growth 算 法 的 原理 以 及 Mahout 实 现 FP-Growth 算 法 的 原理 ， 智 能 推荐 主要 介绍 基于 项 目的 协同 过 滤 算法 以 及 Mahout 实 现 基于 项 目的 协同 


` 第 13 章 市 供水 混 凝 投药 量 控制 分 析 


` 第 14 章 ”基于 图 像 处 理 的 车 辆 压 双 黄 线 检测 


Be 法律 咨询 数据 分 析 与 服务 推荐 


7.1 背景 与 挖掘 目标 


随 着 互联 网 和 信息 技术 快速 发 展 ， 电 子 商务 、 网 上 服务 与 交易 等 网 络 业务 越 来 越 普 及 ， 大 量 的 信息 聚集 起 来 形成 海量 信息 。 用 户 想 要 从 海量 信息 中 快速 准确 地 寻找 到 自己 感 兴趣 的 信息 已 经 变 得 越 来 越 
困难 ， 在 电子 商务 领域 这 点 显得 更 加 突出 。 因 此 ， 信 息 过 载 的 问题 已 经 成 为 互联 网 技术 中 的 一 个 重要 难题 。 为 了 解决 这 个 问题 ， 搜 索引 警 就 诞生 了 ， 如 Google、 百 度 等 。 搜 索引 警 在 一 定 程度 上 缓解 了 信息 
过 载 问 题 ， 用 户 输入 关键 词 ， 搜 索引 警 就 会 返回 给 用 户 与 输入 的 关键 词 相关 的 信息 。 但 是 无 法 解决 用 户 的 很 多 其 他 需求 ， 如 用 户 无 法 找到 准确 描述 自己 需求 的 关键 词 时 ， 搜 索引 擎 就 无 能 为 力 了 。 


与 搜索 引擎 不 同 ， 推 荐 系统 并 不 需要 用 户 提 供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 ， 主 动 为 用 户 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 因 此 ， 对 于 用 户 而 言 ， 推 荐 系统 和 搜索 引擎 是 两 个 互补 的 
工具 。 搜 索引 擎 满足 有 明确 目的 的 用 户 需求 ， 而 推荐 系统 能 够 帮助 用 户 发 现 其 感 兴趣 的 内 容 。 因 此 在 电子 商务 领域 中 ， 推 荐 技术 可 以 起 到 以 下 作用 : 


` 帮助 用 户 发 现 其 感 兴趣 的 物品 ， 节 省 用 户 时 间 ， 提 升 用 户 体验 。 


: 提高 用 户 对 电子 商务 网 站 的 忠诚 度 ， 如 果 推 荐 系统 能 够 准确 发 现 用 户 的 兴趣 点 ， 并 将 合适 的 资源 推荐 给 用 户 ， 用 户 就 会 对 该 电子 商务 网 站 产生 依赖 ， 从 而 建立 稳定 的 企业 忠实 顾客 群 ， 进 而 提高 用 户 


满意 度 。 


本 例 主要 研究 北京 某 家 法 律 网 站 ， 它 是 一 家 电子 商务 类 的 大 型 法 律 资 讯 网 站 ， 其 致力 于 为 用 户 提 供 丰 富 的 法 律 信息 与 专业 咨询 服务 ， 并 为 律师 与 律师 事务 所 提供 卓有成效 的 互联 网 整合 营销 解决 方案 。 
随 着 其 网 站 访问 量 的 增 大 ， 其 数据 信息 量 也 在 大 幅 增 长 。 用 户 在 面 对 大 量 信息 时 ， 无 法 及 时 从 中 获得 自己 需要 的 信息 ， 对 信息 的 使 用 效率 越 来 越 低 。 这 种 浏览 大 量 无 关 信息 的 过 程 ， 造 成 了 用 户 需 要 花费 大 
量 的 时 间 才 能 找到 自己 需要 的 信息 ， 从 而 使 用 户 不 断 流失 ， 对 企业 造成 巨大 的 损失 。 


为 了 能 够 更 好 地 满足 用 户 需求 ， 依 据 其 网 站 海量 的 数据 ， 研 究 用 户 的 兴趣 偏好 ， 分 析 用 户 的 需求 和 行为 ， 发 现 用 户 的 兴趣 点 ， 从 而 引导 用 户 发 现 自己 的 信息 需求 ， 将 长 尾 网 页 (长 尾 网 页 是 指 网 页 的 点 
击 情况 满足 长 尾 理 论 中 尾巴 部 分 的 网 页 ) 准确 地 推荐 给 所 需 用 户 ， 帮 助 用 户 发 现 他 们 感 兴趣 ， 但 很 难 发 现 的 网 页 信息 。 为 用 户 提供 个 性 化 的 服务 ， 并 建立 网 站 与 用 户 之 间 的 密切 关系 ， 让 用 户 对 推荐 系统 产 
生 依 赖 ， 从 而 建立 稳定 的 企业 忠实 顾客 群 ， 实 现 客户 链 式 反应 增值 ， 提 高 消费 者 满意 度 。 通 过 提高 服务 效率 帮助 消费 者 节约 交易 成 本 等 ， 制 定 有 针对 性 的 营销 战略 方针 ， 促 进 企业 长 期 稳定 、 高 速 发 展 。 


目前 网 站 上 已 经 存在 部 分 推荐 ， 例 如 ， 当 访问 主页 时 ， 可 以 在 婚姻 栏目 发 现 如 图 7-1 所 示 的 热点 推荐 。 当 访问 具体 的 知识 页 面 时 ， 在 页 面 的 右边 和 下 面 发 现 也 存在 一 些 热点 推荐 和 基于 内 容 的 关键 字 推 
荐 ， 如 图 7-2 所 示 。 
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图 7-1 主页 热点 推荐 
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作者 ; OMER 来 源 : 未 知 2013-12-27 18:24 

BENATAR AE TAS. 一 方 又 反悔 的 ， 能 否 向 法 院 起 
I? 这 种 情形 下 ， 一 般 可 作 如 下 几 种 关 ; JEE 

|. AUARSRAY ARTIA. NOEMEN EAE 
eA EN 离婚 后 孩子 归 淮 抚养 有 优先 条 件 

2. 一 方 对 高 婚 协 议 中 的 内 容 反 悔 的 ， 可 以 在 一 年 以 内 向 人 民法 院 起 诉 要 BGS EREEREER 

FI STEREO SARE MEERA MENEE el EU 


l | Seg DEUREN Ez 
3. Wt RASS SASL a] A, Rocio o. 如 不 具有 受 更 权 的 正 SUE HS J 
SEH. EP Blt he aK o pall "RE" Alea Pee TAE BAR 


4. SUSAR. ELARI - REAA EERE 
离婚 如 何 取证 


> PIAN - 
SST AHR etn] 
SEHPA AARNE 
. 基 司 股份 是 否 应 当 作为 婚前 财产 进行 分 刘 | 
BB SRR ine x : 社会 抚养 费 征 收 程序 

结婚 证 斯 了 怎么 办 

ELAS BAIS 回 起 诉 高 婚 要 提供 哪些 证 所 
bhi tlc Ez Osc UE d 


图 7-2 ”婚姻 知识 目前 的 推荐 


当 用 户 访问 网 站 页 面 时 ， 系 统 会 记录 用 户 访问 网 站 的 日 志 ， 其 访问 的 数据 记录 见 表 7-2， 其 中 记录 了 用 户 IP (已 做 数据 脱 敏 处 理 ) 、 用 户 访问 的 时 间 、 访 问 内 容 等 多 项 属性 ， 并 说 明 其 中 的 各 个 属性 ， 见 
表 7-1。 


表 7-1 访问 记录 属性 表 


属性 名 称 属性 说 明 属性 名 称 属性 说 明 


real Areacode 地 区 编号 源 地 址 名 
userAgent 浏览 器 代理 网 页 标题 
userOS 用 户 浏览 器 类 型 标题 类 型 ID 
pagePath m 搜索 关键 字 


依据 表 7.2 的 原始 数据 ， 分 析 如 下 目标 : 


表 7-2 用户 访 问 记录 表 


Title- 
reallP BEA userAgent userOS userID clientID timestamp — |timestamp format pagePath ymd full URLId pet pageTitle pe pagd Category- 
eacode name Categoryld N 
UCWEB/2. 0( MIDP-2. 0;U; 做 作 住房 公 积 
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“ 按 地 域 研究 用 户 访 问 时 间 、 访 问 内 容 、 访 问 次 数 等 分 析 主 题 ， 深 入 了 解 用 户 访问 网 站 的 行为 、 目 的 及 关心 的 内 容 。 
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* 借助 大 量 的 用 户 访问 记录 ， 发 现 用 户 的 访问 行为 习惯 ， 对 不 同 需求 的 用 户 推荐 相关 的 服务 页 面 。 


第 / 章 法律 咨询 数据 分 析 与 服务 推荐 


7.1 背景 与 挖掘 目标 


随 着 互联 网 和 信息 技术 快速 友 展 ， 电 子 商 务 、 网 上 服务 与 交易 等 网 络 业 务 越 来 越 普 及 ， 大 量 的 信息 聚集 起 来 形成 海量 信息 。 用 户 想 要 从 海量 信息 中 快速 准确 地 寻找 到 自己 感 兴趣 的 信息 已 经 变 得 越 来 越 
困难 ， 在 电子 商务 领域 这 点 显得 更 加 突出 。 因 此 ， 信 息 过 载 的 问题 已 经 成 为 互联 网 技术 中 的 一 个 重要 难题 。 为 了 解决 这 个 问题 ， 搜 索引 擎 就 证 生 了， 如 Google、 百 度 等 。 搜 索引 擎 在 一 定 程度 上 缓解 了 信息 
过 载 问题 ， 用 户 输入 关键 词 ， 搜 索引 警 就 会 返回 给 用 户 与 输入 的 关键 词 相关 的 信息 。 但 是 无 法 解决 用 户 的 很 多 其 他 需求 ， 如 用 户 无 法 找到 准确 描述 自己 需求 的 关键 词 时 ， 搜 索引 擎 就 无 能 为 力 了 。 


与 搜索 引 警 不同 ， 推 荐 系统 并 不 需要 用 户 提供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 ， 主 动 为 用 户 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 因 此 ， 对 于 用 户 而 言 ， 推 荐 系统 和 搜索 引擎 是 两 个 互补 的 
工具 。 搜 索引 警 满足 有 明确 目的 的 用 户 需 求 ， 而 推荐 系统 能 够 帮助 用 户 发 现 其 感 兴 趣 的 内 容 。 因 此 在 电子 商务 领域 中 ， 推 荐 技术 可 以 起 到 以 下 作用 : 


帮助 用 户 发 现 其 感 兴趣 的 物品 ， 节 省 用 户 时 间 ， 提 升 用 户 体 验 。 


提高 用 户 对 电子 商务 网 站 的 患 诚 度 ， 如 果 推 荐 系统 能 够 准确 发 现 用 户 的 兴趣 点 ， 并 将 合适 的 资源 推荐 给 用 户 ， 用 户 就 会 对 该 电子 商务 网 站 产生 依赖 ， 从 而 建立 稳定 的 企业 患 实 顾客 群 ， 进 而 提高 用 户 
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;两 € Fo 


本 例 主要 研究 北京 某 家 法 律 网 站 ， 它 是 一 家 电子 商务 类 的 大 型 法 律 资讯 网 站 ， 其 致力 于 为 用 户 提供 丰富 的 法 律 信息 与 专业 咨询 服务 ， 并 为 律师 与 律师 事务 所 提供 卓有成效 的 互联 网 整合 曹 销 解决 方案 。 
随 着 其 网 站 访问 量 的 增 大 ， 其 数据 信息 量 也 在 大 幅 增 长 。 用 户 在 面 对 大 量 信息 时 ， 无 法 及 时 从 中 获得 自己 需要 的 信息 ， 对 信息 的 使 用 效率 越 来 越 低 。 这 种 浏览 大 量 无 关 信息 的 过 程 ， 造 成 了 用 户 需 要 花费 大 
量 的 时 间 才 能 找到 自己 需要 的 信息 ， 从 而 使 用 户 不 断 流失 ， 对 企业 造成 巨大 的 损失 。 


为 了 能 够 更 好 地 满足 用 户 需求 ， 依 据 其 网 站 海量 的 数据 ， 研 究 用 户 的 兴趣 偏好 ， 分 析 用 户 的 需求 和 行为 ， 发 现 用 户 的 兴趣 点 ， 从 而 引导 用 户 发 现 自己 的 信息 需求 ， 将 长 尾 网 页 (长 尾 网 页 是 指 网 页 的 点 
击 情况 满足 长 尾 理论 中 尾巴 部 分 的 网 页 ) 准确 地 推荐 给 所 需 用 户 ， 帮 助 用 户 发 现 他 们 感 兴趣 ， 但 很 难 发 现 的 网 页 信息 。 为 用 户 提供 个 性 化 的 服务 ， 并 建立 网 站 与 用 户 之 间 的 密切 关系 ， 让 用 户 对 推荐 系统 产 
生 依 赖 ， 从 而 建立 稳定 的 企业 忠实 顾客 群 ， 实 现 客户 链 式 反应 增值 ， 提 高 消费 者 满意 度 。 通 过 提高 服务 效率 帮助 消费 者 节约 交易 成 本 等 ， 制 定 有 针对 性 的 营销 战略 方针 ， 促 进 企业 长 期 稳定 、 高 速 发 展 。 


目前 网 站 上 已 经 存在 部 分 推荐 ， 例 如 ， 当 访问 主页 时 ， 可 以 在 婚姻 栏目 发 现 如 图 7-1 所 示 的 热点 推荐 。 当 访问 具体 的 知识 页 面 时 ， 在 页 面 的 右边 和 下 面 发 现 也 存在 一 些 热点 推荐 和 基于 内 容 的 关键 字 推 
荐 ， 如 图 7-2 所 示 。 


婚姻 法 热 文 外 婚姻 法 律 咨询 y 
国 osos so al 我 起 离婚 、 要 到 儿子 的 抚养 权 
高 婚 后 财产 纠纷 塞 例 及 依据 12-27 
z : REBT 
DE] 高 婚 时 分 割 房产 的 几 个 问题 e 
E 


BEES Er A DCEERERUHEU — — ! 
moii 男方 有 外 过 ， 提 出 离婚 ,财产 怎么 分 割 ? 小 孩 判 给 谁 ? 
我 想 高 婚 ， 但 不 知道 怎 勾 办理 


分 局 两 年 能 高 姥 吗 2.5; 婚姻 法 律 类 识 NV 

国 esie cierra L7; BEF | BIBXEDS/DEIIAE A BSEC ENERET 
排 犯 在 被 管制 或 绑 刑 期间 能 天 227 . 抚养 费 | 抚养 碍 的 支付 标准 和 支付 方式 
(esate =e 1227 «+ E£AL| 彩礼 应 天 返还 受 关 注 应 返还 的 情形 


pe 感情 破裂 | REMI E REESE ERE RE 


图 7-1 主页 热点 推荐 


协议 离婚 后 反悔 
作者 ; OMER 来 源 : 未 知 2013-12-27 18:24 

BENATAR AE TAS. 一 方 又 反悔 的 ， 能 否 向 法 院 起 
I? 这 种 情形 下 ， 一 般 可 作 如 下 几 种 关 ; JEE 

|. AUARSRAY ARTIA. NOEMEN EAE 
eA EN 离婚 后 孩子 归 淮 抚养 有 优先 条 件 

2. 一 方 对 高 婚 协 议 中 的 内 容 反 悔 的 ， 可 以 在 一 年 以 内 向 人 民法 院 起 诉 要 BGS EREEREER 
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SST AHR etn] 
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图 7-2 ”婚姻 知识 目前 的 推荐 


当 用 户 访问 网 站 页 面 时 ， 系 统 会 记录 用 户 访问 网 站 的 日 志 ， 其 访问 的 数据 记录 见 表 7-2， 其 中 记录 了 用 户 IP (已 做 数据 脱 敏 处 理 ) 、 用 户 访问 的 时 间 、 访 问 内 容 等 多 项 属性 ， 并 说 明 其 中 的 各 个 属性 ， 见 
表 7-1。 


表 7-1 访问 记录 属性 表 


属性 名 称 属性 说 明 属性 名 称 属性 说 明 


real Areacode 地 区 编号 源 地 址 名 
userAgent 浏览 器 代理 网 页 标题 
userOS 用 户 浏览 器 类 型 标题 类 型 ID 
pagePath m 搜索 关键 字 


依据 表 7.2 的 原始 数据 ， 分 析 如 下 目标 : 


表 7-2 用户 访 问 记录 表 


Title- 
reallP BEA userAgent userOS userID clientID timestamp — |timestamp format pagePath ymd full URLId pet pageTitle pe pagd Category- 
eacode name Categoryld N 
UCWEB/2. 0( MIDP-2. 0;U; 做 作 住房 公 积 
zh-CN; HTC 9060) U2/1. 0. 0 /ask/question_ http://www. | /ask/question_ i 房产 买卖 
1531222030 |140100 UCBrowser/10. 1. 3. 546 U2/ 499670012. 1 |499670012. 1 |1428041479371 |2015/4/3 14:11 8399551. html 20150403 TAE oA 8399551. html 101003 |www. lawtime. j 纠纷 
1.0.0 Mobile | 
UCWEB/2. 0( MIDP-2. 0;U; 做 作 住 房 公 积 
zh-CN; HTC 9060) U2/1. 0. 0 /ask/question_ http://www. | /ask/question_ . 金 的 担保 人 有 什 房产 买卖 
1531222030 |140100 UCBrowser/10. 1. 3. 546 U2/ 499670012. 1 |499670012. 1 |1428041479536 |2015/4/3 14:11 8399551. html 20150403 CAN bib 8399551. html 101003 |www. lawtime. cn 么 风险 -法律 快 纠纷 
1.0.0 Mobile 车 法 律 咨询 
Mozilla/5. 0( Windows NT 6. 1) 做 资金 监管 
AppleWebKit/537. 36 ( KHT- / ask/ question _ http://www. | /ask/question_ . Ja Ay. E S 2^ iè Po 
1706656375 |140100 ML, like Gecko) Chrome/31. 0. 1259341818 {1259341818 |1429353422107 |2015/4/18 18:37 10937991. html 20150418 "ON sg 10937991. html 101003 |www. lawtime. cn 偿 问 题 - 法 律 37 | 立案 侦查 
1650. 63 Safari/537. 36 快车 法 律 咨询 
Mozilla/5.0( Windows NT 6. 1 
4223238775 |140100 Apple Webi 36 ( " 908370090. 1 008370090. 1 [1426579834667 015/3/17 16:10| “ask question. p0150317 /ask/question_ | 01003 lawti yt 26 | 定罪 量刑 
ML,like Gecko) Chrome/31. 0. i i * 421092. html , 421092. html p = 
1650. 63 Safari/537. 36 
Mozilla/5.0( Windows NT 5.1) m 
AppleWebKit/537. 36 ( KHTML, |... /ask/question_ http://www. | /ask/question_ , 工伤 赔偿 
U6 : 0 " 3 N 
1110054106 |140100 like Gecko) Chrome/31. 0. 1650. Windows XP 2068832749 [2068832749 [1423635850415 2015/2/11 14:24 6925984. html 20150211 eiim cn 925984. html 101003 lawtime 时 间 限 制 规定 纠纷 
Mozilla/5. 0( Windows NT 6. 1; 做 钟点 工 要 签 
WOW64 ) AppleWebKit/537. 36 ; http ://www. 1 ; 劳动 合同 吗 ? - 劳动 合同 
1046706190 |140100 (KHTML, like Gecko) Chrome/ 1427852615867 2015/4/1 9:43 20150401 1999001 . lawtime. i 62 纠纷 
Mozilla/5.0( Windows NT 5. 1) 
AppleWebKit/537. 36 ( KHTML, "T 
465868558 1140100 lli 1610868312 [1428394886464 D015/4/7 16:21 tk cag 0987. 20150407 ; ` 11999001 . lawtime. 62 劳动 合同 
e html lawtime. cn 纠纷 
A | : . 劳动 合同 
1571227319 |140100 |. B71696939. 1 |1429849254956 R015/4/24 12:20 20150424 3 1999001 . lawtime. 62 
lawtime. cn By 
Mozilla/5.0( Windows NT 6.1) 
AppleWebKit/537. 36 ( KHT- |... / ask/question . " 
2092450417 {140100 L, like Gecko) Chrome/36. 0. indows 7 632334036 11632334036 {1427170907797 2015/3/24 12:21 5598369. html 20150324 5598369. html 101003 . lawtime. 51 违约 赔偿 
985. 125 Safari/537. 36 
Mozilla/4. 0 ( compatible; 
SIE 8. 0; Windows NT 5. 1; 
rident/4. 0;. NET CLR 2.0. |.. / ask/ question . http://www. | /ask/question_ . : 
\ A M 
1121454201 [140100 50727;. NET CLR 3. 0. 4506. indows XP 2136917696 2136917696 [1428039745607 P015/4/3 13:42 432948. html 20150403 Nerio I 01003 . lawtime. en [lf 17 | 儿童 监护 
p152;. NET CLR 3. 5. 30729; 
qihu theworld ) 
Mozilla/5. 0 ( Macintosh ; Intel 
ac OS X 10 9 5) AppleWeb- | " 
2561650547 it/537. 78. 2 ( KHTML, like Mac OS X 316725305 1316725305 1425978540658 2015/3/10 17:09 201007214319. 20150310 ips . lawtime. k 毁容 如 何 索 we 
real- Ar host- Title- Title- 
reallP userAgent UserOS userID clientID timestamp — |timestamp format pagePath ymd fullURL fullURLId pageTitle page pagd Category- 
eacode name Categoryld N 
做 杂志 ,使 用 
Mozilla/5.0( Windows NT 5. 1) 网 上 找 来 的 图 
AppleWebKit/537. 36 ( KHT-|.... /ask/question_ http://www. | /ask/question_ ] 片 作 为 背景 算 
409120636 |140100 ML, like Gecko) Chrome/31. 0. Windows XP |362380012. 1 |362380012. 1 |1429463755830 |2015/4/20 1:15 3764976. html 20150420 Lei sa 3764976. html 101003 |www. lawtime. cn 不 算 侵权 ? - 26 | 定罪 量刑 
1650. 63 Safari/537. 36 法 律 快 车 法 律 
咨询 
做 杂志 ,使 用 
Mosilla s. OC Windowe NT 6. 1; / ask/question http://www. | /ask/question jy js : : x 
1699823729 |140100 rid Gecko/20100101 [Windows 7 (38549427. 14 |38549427. 14 |1429871000544 |2015/4/24 18 :23 3764976. html 20150424 We uil 3764976. html 101003 |www. lawtime. cn 不 算 侵权 ? - 26 | 定罪 量刑 
: 法 律 快车 法 律 
咨询 
做 杂志 ,使 用 
Mozilla/5.0( Windows NT 6. 1; 网 上 找 来 的 图 
WOW64) AppleWebKit/537. 36 |... /ask/question_ http://www. | /ask/question_ 片 作 为 背景 算 
1257332336 |140100 (KHTML, like Gecko) Chrome/ Windows 7  |1242996761 |1242996761 [1430292457522 |2015/4/29 15:27 3764976. html 0150429 ee 不 算 侵权 ? - 26 | 定罪 量刑 
38. 0. 2125. 122 Safari/537. 36 法 律 快 车 法 律 
咨询 
Mozilla/5. 0( Windows NT 6. 1) 做 有 限 责任 
AppleWebKit/537. 36 ( KHT- |. /ask/question_ http://www. | /ask/question_ 司 的 股东 条 
2586839161 |140100 ML, like Gecko) Chrome/31. 0. Windows 7  |1283840943 [1283840943 |1423489880092 D015/2/9 21:51 5173773. html 20150209 | 3173773. html 41 股权 纠纷 
1650. 63 Safari/537. 36 
Mozilla/5. 0 ( Macintosh ; Intel 
MENTA / ask/question http://www. | /ask/question 
i i O a j i u : £ 
2828223345 |140100 |Kiv/537. 78. 2 ( KHTML, like Mac OS X 80744139. 1 980744139. 1 [1425095196930 2015/2/28 11:46 5173773. html 20150228 mcd 3173773. html 41 股权 纠纷 
Mozilla/5.0( Windows NT 6. 1; 
WOW64 ) AppleWebKit/537. 36 . , 
1018329870 [140100 |( KHTML, like Gecko) Chrome/ Windows 7 p 567084001. 1 {1428378107184 D015/4/7 11:41 Na songa 20150407 i — iani ence . lawtime. 41 | 股权 纠纷 
31. 0. 1650. 63 Safari/537. 36 l MTS T 
SE 2. X MetaSr 1.0 
Mozilla/5.0( Windows NT 6. 1; /ask/ question http://www. | /ask/question 
2119376756 140100 |Trident/7. 0; rv; 11. 0) like Windows 7 [1599121760 {1599121760 1428486243962 R015/4/8 17:44 qu — 20150408 : P: i q x . lawtime. 股权 纠纷 
oe 8173773. html awtime. cn 8173773. html 
ozilla/5. 0( Windows NT 6. 1) 
AppleWebKit/537. 36 ( KHT- |... | /ask/question_ } http://www. | /ask/question_ ] " 
2249626126 140100 ‘like Gecko) Chrome/38. 0. indows 7 796985316 1796985316 1423798297363 ?015/2/13 11:31 6617278. html 0150213 Mei na 6617278. html . lawtime. 41 股权 纠纷 
2125. 122 Safari/537. 36 
Mozilla/5.0( Windows NT 6. 1; 
OW64 ) AppleWebKit/537. 36 |... | /ask/question_ | http://www. | /ask/question_ : " 
3020128887 KHTML, like Gecko) Chrome/ indows 7 188934890 1188934890 [1429697248802 2015/4/22 18:07 617278. html 0150422 Mert t 1617278. html . lawtime. 41 股权 纠纷 
31.0. 1650. 63 Safari/537. 36 
Mozilla/5. 0 ( compatible; 做 有 限 公 司 
SIE 10. 0; Windows NT 6.1; | /ask/question_ http://www. | /ask/question_ : HOA BE ffi 
D : 4 Z 
3423224433 140100 |. OW6A; Triden/6. 0;2345Explorer indows 7 150849692 1150849692 1430291567285 2015/4/29 15:12 5617278. html 0150429 fich 6617278. html 01003 . lawtime. cn 责任 - 法 律 1 股权 纠纷 
5.0.0. 14136) 决 车 法 律 咨询 


Mozilla/5. 0 ( compatible; 
MSIE 10.0; Windows NT 6. 1; 
WOW64; Trident/6. 0; 2345Explorer 
5.0.0. 14136) 


Mozilla/5.0( Windows NT 6. 1; 
WOW64 ) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/ 
31.0. 1650. 63 Safari/537. 36 


3423224433 |140100 


1859491598 |140100 


Mozilla/5. 0( Windows NT 6. 1; 
WOW64; Trident/7. 0; rv: 11. 
0) like Gecko 


1242119863 |140100 


Mozilla/4. 0 ( Windows; U; 
Windows NT 5. 1 ;zh-TW ;rv :1. 
.0.11) 


3609131066 |140100 


Mozilla/5. 0( Windows NT 5.1) 


2731637774 |140100 


L,like Gecko) Chrome/31. 0. 
1650. 63 Safari/537. 36 


Mozilla/5. 0( Windows NT 5.1) 
AppleWebKit/537. 36 ( KHT- 
L,like Gecko) Chrome/31. 0. 
650. 63 Safari/537. 36 


2731637774 140100 


Mozilla/5. 0 ( iPad; U; CPU 
DS 7 like Mac OS X;zh- CN; 
Pad4 , 1) AppleWebKit/534. 46 
KHTML, like Gecko ) UCBrows- 
pr/2. 8. 3. 529 U3/ Mobile/10A403 
ari/7543. 48.3 


2601561724 140100 


Mozilla/5. 0( Windows NT 6. 1) 
AppleWebKit/537. 36 ( KHT- 
L,like Gecko) Chrome/31. 0. 
650. 63 Safari/537.36 


3787742832 140100 


Mozilla/5.0( Windows NT 6. 1; 
WOW64) AppleWebKit/537. 36 
KHTML,like Gecko) Chrome/ 
31.0.1650. 63 Safari/537. 36 


1296711793 140100 


Mozilla/5.0( Windows NT 5.1) 
AppleWebKit/537. 36 ( KHT- 

L, like Gecko) Chrome/31. 0. 
650. 63 Safari/537. 36 


2059693169 140100 


Mozilla/5.0( Windows NT 6.3; 
WOW64 ) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/ 
40. 0. 2214. 94 Safari/537. 36 


364932977 |140100 


Mozilla/5.0( Windows NT 6. 1) 


AppleWebKit/537. 36 ( KHT- 
690099008. 140100 ML,like Gecko) Chrome/38. 0. 
2125. 122 Safari/537. 36 


Mozilla/5. 0( Windows NT 6.1) 


AppleWebKit/537. 36 ( KHT- 
| ML, like Gecko) Chrome/31. 0. 
1650. 63 Safari/537. 36 


Mozilla/4. 0 ( compatible; 

MSIE 8. 0; Windows NT 5. 1; 

Trident/4. 0 ; Mozilla/4. 0 ( com- 

3080340593 |140100 |patible; MSIE 6.0; Windows NT 
. 15 SV1);. NET CLR 1. 1. 


Mozilla/5.0( Windows NT 6. 1; 
WOW64 ) AppleWebKit/537. 36 
221596127 140100 |( KHTML, like Gecko) Chrome/ 
31. 0. 1650. 48 Safari/537. 36 
QQBrowser/8. 0. 3345. 400 
Mozilla/5. 0( Windows NT 6. 1; 
705385592 1140100 [WOW64; Trident/7. 0; rv; 11. 
D)like Gecko 


Mozilla/5.0( Windows NT 5. 1) 

AppleWebKit/537. 36 ( KHT- 

SSIS AUTO: Aes ks Godke) Cheatin 300, 
1599. 101 Safari/537. 36 


Mozilla/5. 0 ( Linux; U; An- 
Hroid 4. 2. 2; zh- CN; Hol- TOO 
Build/HUAWEIHol- TOO ) Ap- 
1011128334 140100 


Mozilla/5. O( Windows NT 6. 1; 


WOW64 ) AppleWebKit/537. 36 
2228186993 140100 { KHTML, like Gecko) Chrome/ 
35.0. 1916. 153 Safari/537. 36 


BE 2. X MetaSr 1.0 


ik: 数据 详 见 01- 示 例 数 据 /data.zip。 


Windows 7 


Windows 7 


Windows 7 


Windows XP |1221287319 
AppleWebKit/537. 36 ( KHT- 
- 


Windows XP 


Windows 7 


1 202229259. 1 


real- Ar 


= 4 z = = E = = 
=] =] 2 3 
会 2- B. B- z- Ey 人 
A i E E ž 3 $ 
- > - - x - - 
"d "d 


/ ask/ question . 


1150849692 1150849692 1430291685261 |2015/4/29 15:14 


6617278. html 


/ ask/ question . 
914636. html 


1422725918555 


1102973681 11102973681 2015/2/1 1:38 


/ ask/question . 


984584705. 1 [1423536816616 3402035. html 


984584705. 1 2015/2/10 10:53 


/ask/question_ 


1429685946200 6548781. html 


1221287319 2015/4/22 14 :59 


/ask/question_ 


427360738669 658765. html 


1204438324 11204438324 2015/3/26 17:05 


/ ask/ question 
658765. html 


/ ask/ question 
2015/2/5 23:28 | 152117. html 


2015/2/28 12:50 


| / ask/question . 
015/2/2 23:10. 4653994. html 


204438324 1204438324 1427369024680 P015/3/26 19:23 


118385063. 1 118385063. 1 1423150087176 


/ ask/question 


" id 0382308. html 


342347607 1342347607 


546761287 1546761287 1422889805462 


/ ask/question . 


423645371761 2015/2/11 17:02 


5653924. html 


pagePath 


clientID timestamp — |timestamp format 


1911420797 


Windows 8. 1 |1911420797 
601074264. 1 601074264. 1 
812125454. 1 |812125454. 1 


919277708. 1 919277708. 1 


372903090. 1 872903090. 1 


590991433. 1 690991433. 1 
730261919. 1 730261919. 1 


963560652 
328923830 


/ ask/question, . 

1425913507611 |2015/3/9 23:05 3653924. html 
/ ask/ question 

015/3/16 22,09 4653924. html 


/ ask/ question  . 
2015/3/25 18:56 3653924. html 


2015/4/7 17:27 h 


2015/4/8 14:38 Ke «^ etie 
2015/4/9 16:14 


2015/2/9 23.40 


1426514986691 


1427280973102 


/ ask/question . 
653924. html 


1428398837055 


1428475106146 


1428567244656 / ask/question . 


/ ask/question . 


423496417446 00745. html 
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“ 按 地 域 研究 用 户 访 问 时 间 、 访 问 内 容 、 访 问 次 数 等 分 析 主 题 ， 深 入 了 解 用 户 访问 网 站 的 行为 、 目 的 及 关心 的 内 容 。 


http://www. 


lawtime. cn 


http :// www. 


lawtime. cn 


http://www. 


awtime. cn 


http://www. 


awtime. cn 


http://www. 


awtime. cn 


http://www. 


awtime. cn 


http :// www. 


awtime. cn 


http://www. 
lawtime. cn 


http://www. 
lawtime. cn 


http :// www. 
lawtime. cn 


awtime. cn 


http ;/ www. 


awtime. cn 


http :// www. 


awtime. cn 


http://www. 


awtime. cn 


/ ask/ question . 


6617278. html 


/ ask/ question . 


914636. html 


/ask/question_ 


3402035. html 


/ask/question_ 


6548781. html 


/ask/question_ 
152117. html 


/ask/question_ 
0382308. html 


/ ask/question . 
5653924. html 


fullURL fullURLId 


http ;// www. 
lawtime. cn 


/ ask/question . 
3653924. html 


/ ask/question . 
3653924. html 


/ ask/question . 
3653924. html 


/ ask/ question 
3653924. html 


/ ask/question . 
8653924. html 


/ ask/question . 
3653924. html 


/ ask/question . 
8653924. html 


/ ask/ question . 
00745. html 


/ ask/ question 
00745. html 


国 


101003 


101003 


101003 


01003 


01003 


01003 


E E E S 
E S E S 
w Ww Ww Ww 


www. lawtime. 


www. lawtime. 


www. lawtime. 


. lawtime. 


. lawtime. 


. lawtime. 


. lawtime. 


p 
^ 
FH 
N 
JON 


E 


4 
© 


www. lawtime. 


www. lawtime. 


www. lawtime. 


www. lawtime. 


. lawtime. 


. lawtime. 


. lawtime. 


. lawtime. 


. lawtime. 


. lawtime. en 


. lawtime. cn 


. lawtime. cn 


Cn 


Cn 


Cn 


做 游戏 外 挂 


会 被 判刑 吗 - 
法 律 快车 法 律 
咨询 


做 引产 犯法 
么 -法 律 快车 
法 律 咨询 


做 银行 贷款 


担保 人 有 是 什 


么 要 求 ? 需 要 什 
么 证 件 ? - 法 


做 银 保 工 作 ， 
险 公司 业务 员 
离职 不 给 小 账 会 


处 罚 嘛 ? 因为 给 


pageTitle- 
Categoryld 


做 遗产 继承 
公证 怎么 收费 
-法 律 快车 法 
律 咨询 


做 遗产 继承 
公证 怎么 收费 
-法 律 快 车 法 
律 咨询 

做 遗产 继承 
公证 怎么 收费 
-法 律 快车 法 
律 咨询 


fi it ^ 4 7R 

公证 怎么 收费 
-法 律 快 车 法 
律 咨询 


公证 怎么 收费 


| E: 


股权 纠纷 


定罪 量刑 


定罪 量刑 


现 


透支 和 套 


套现 


金融 债务 


(5X) 


Title- 


Category- 
Name 


医 患 纠纷 


医 患 纠纷 


医 患 纠纷 


故意 伤害 


故意 伤害 


* 借助 大 量 的 用 户 访问 记录 ， 发 现 用 户 的 访问 行为 习惯 ， 对 不 同 需求 的 用 户 推荐 相关 的 服务 页 面 。 


7.2 ”分析 方法 与 过 程 

这 个 案例 的 目标 是 需要 对 用 户 进行 推荐 ， 即 以 一 定 的 方式 使 用 户 与 物品 (本 文 指 网 页 ) 建立 联系 【1] 。 为 了 更 好 地 帮助 用 户 从 海量 的 数据 中 快速 发 现 感 兴趣 的 网 页 ， 在 目前 相对 单一 的 推荐 系统 上 补 
充 ， 采 用 协同 过 滤 算 法 进行 推荐 ， 其 推荐 原理 如 图 7-3 所 示 。 

由 于 用 户 访问 网 站 的 数据 记录 很 大 ， 如 果 不 对 数据 进行 分 类 处 理 ， 对 所 有 记录 直接 采用 推荐 系统 进行 推荐 ， 会 存在 以 下 问题 : 

1) 数据 量 太 大 意味 着 物品 数 与 用 户 数 很 多 ， 在 模型 构建 用 户 与 物品 的 稀疏 矩阵 时 ， 出 现 设备 内 存 空 间 不 够 的 情况 ， 并 且 模 型 计算 需要 消耗 大 量 的 时 间 ; 


2) 用 户 区 别 很 大 ， 不 同 用 户 关注 的 信息 不 同 ， 因 此 即使 能 够 得 到 推荐 结果 ， 其 推荐 效果 也 会 不 好 。 


网 页 信息 
(REEF. BHD 


数据 源 


图 7-3 ”推荐 系统 原理 


类 处 理 与 分 析 ， 如 图 7-4 所 示 。 正 常 的 情况 下 ， 需 要 对 用 户 的 兴趣 爱好 以 及 需求 进行 分 类 。 用 户 访问 记录 中 ， 没 有 记录 用 户 访问 网 页 时 间 的 长 短 ， 因 此 不 容易 判 


为 了 避免 出 现 上 述 问题 ， 需 要 对 其 进 4 
进行 分 类 处 理 ， 主 要 采用 以 下 方法 处 理 : 以 用 户 浏览 网 页 的 类 型 分 类 ， 然 后 推荐 每 个 类 型 中 的 内 容 。 


断 用 户 兴趣 爱好 。 本 文 根 据 用 户 浏览 的 网 页 信 


用 户 区 别 大 
效果 不 理想 


图 7-4 数据 处 理 分 析 
采用 上 述 的 分 析 方 法 与 思路 ， 结 合 本 例 的 原始 数据 以 及 分 析 目 标 ， 可 得 到 整个 分 析 的 流程 图 ， 如 图 7-5 所 示 。 其 分 析 过 程 主要 包含 以 下 步骤 : 
1) 从 系统 中 获取 用 户 访问 网 站 的 原始 记录 。 
2) 对 数据 进行 多 纬度 分 析 ， 用 户 访问 内 容 、 流 失 用 户 分 析 以 及 用 户 分 类 等 分 析 。 
3) 对 数据 进行 预 处 理 ， 包 含 数据 去 重 、 数 据 删 选 、 数 据 分 类 等 处 理 过 程 。 
4) 以 用 户 访问 html 后 缀 的 网 页 为 关键 条 件 ， 对 数据 进行 处 理 。 


5) 对 比 多 种 推荐 算法 进行 推荐 ， 通 过 模型 评价 ， 得 到 比较 好 的 智能 推荐 模型 。 通 过 模型 对 样本 数据 进行 预测 ， 获 得 推荐 结 
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图 7-5 每 能 推荐 系统 整理 流程 图 


7.2.1 数据 抽取 


因为 本 例 以 协同 过 滤 算 法 为 主导 ， 其 他 的 推荐 算法 为 辅 ， 而 协同 过 滤 算 法 的 特性 就 是 通过 历史 数据 找 出 相似 的 用 户 或 者 网 页 ， 因 此 在 数据 抽取 的 过 程 中 ， 尽 可 能 选择 大 量 的 数据 ， 这 样 能 降低 推荐 结果 
随机 性 ， 提 高 推荐 结果 的 准确 性 ， 更 好 地 发 掘 长 尾 网 页 中 用 户 感 兴 趣 的 网 页 。 


以 用 户 的 访问 时 间 为 条 件 ， 选 取 三 个 月 内 (2015-02-01~2015-04-29) 用 户 的 访问 数据 作为 原始 数据 集 。 由 于 每 个 地 区 的 用 户 访问 习惯 以 及 兴趣 爱好 存在 差异 ， 因 此 抽取 广州 地 区 的 用 户 访问 数据 进行 
分 析 ， 其 总 共有 837450 条 记录 ， 其 中 包括 用 户 号 、 访 问 时 间 、 来 源 网 站 、 访 问 页 面 、 页 面 标题 、 来 源 网 页 、 标 签 、 网 页 类 别 、 关 键 词 等 。 


7.2.2 ”数据 探索 分 析 


对 原始 数据 中 的 网 页 类 型 、 点 击 次 数 、 网 页 排名 等 各 个 纬度 进行 分 布 分 析 ， 获 得 其 内 在 的 规律 ， 并 通过 验证 数据 ， 解 释 其 出 现 结果 可 能 的 原因 。 


ATO ”网 页 类 型 统计 


RKA 
411 665 
201 426 
182 900 
18 430 
17 357 
3957 
1715 


网 页 类 型 
101 
199 
107 
301 
102 
106 
103 


1. 网 页 类 型 分 析 


针对 原始 数据 中 用 户 点 击 的 网 页 类 型 进行 统计 ， 结 果 见 表 7-3， 从 中 发 现 点 击 与 咨询 相关 (网 页 类 型 为 101，http://www.****.com/ask/) 的 记录 占 了 49.16%， 其 次 是 其 他 类 型 (网 页 类 型 为 199) 的 占 
比 为 24% 左 右 ， 然 后 是 知识 相关 (网 页 类 型 为 107，http://www.****.com/info/) 占 比 为 22% 左 右 。 


因此 可 以 得 到 用 户 点 击 的 页 面 类 型 的 排行 榜 为 : 咨询 相关 、 知 识 相 关 、 其 他 方面 的 网 页 、 法 规 (类 型 为 301) 、 律 师 相关 (类 型 为 102) 。 可 以 初步 得 出 相对 于 长 篇 的 知识 ， 用 户 更 加 偏向 于 查看 咨询 或 
者 进行 咨询 。 进 一 步 对 咨询 类 别 内 部 进行 统计 分 析 ， 其 结果 见 表 7-4。 其 中 浏览 咨询 内 容 页 (101003) 记录 最 多 ， 其 次 是 咨询 列表 页 (101002) 和 咨询 首页 (101001) 。 结 合 上 述 初步 结论 ， 可 以 得 出 用 
户 都 喜欢 通过 浏览 问题 的 方式 找到 自己 需要 的 信息 ， 而 不 是 以 提问 的 方式 或 者 查看 长 篇 知识 的 方式 。 


记录 数 101 开头 类 型 

396 612 96. 3434 101003 
TTTO |. 8889 101002 
5603 1. 3611 101001 
1674 0. 4067 其 他 


表 7-5 ”知识 类 型 内 部 统计 


记录 数 107 类 型 
164 239 89. 7972 ARAR H 
17 843 知识 首页 

818 知识 列表 页 


统计 分 析 知 识 类 型 内 部 的 点 击 情况 ， 因 为 知识 类 型 中 只 有 一 种 类 型 (107001) ， 所 以 利用 网 址 对 其 进行 分 类 ， 获 得 知识 内 容 页 (http://www.****.com/info/*/ 数 字 .html) 以 及 知识 首页 
(http://www.****.com/info/*/) 和 知识 列表 页 (http://www.****.com/info/*) 的 分 布 情况 ， 其 结果 见 表 7-5。 


分 析 其 他 (199) 页 面 的 情况 ， 其 中 网 址 中 带 有 “? ”的 占 了 32% 左 右 ， 其 他 咨询 相关 与 法 规 专题 占 比 达到 43% 左 右 ， 地 区 和 律师 占 比 为 26% 左 右 。 在 网 页 的 分 类 中 ， 有 律师 、 地 区 、 咨 询 相关 的 网 页 
分 类 ， 为 何 这 些 还 会 存在 其 他 类 别 中 ? 查看 数据 后 ， 发 现 大 部 分 是 以 如 下 网 址 的 形式 存在 : 


* http: / /www.****.com/guangzhou/p2lawfirm 地 区 律师 事务 所 

“ http://www.****,com/guangzhou 地 区 网 址 

“ http://www.****.com/ask/ask.php 
“http://www.****.com/ask/midques_10549897.html 中 间 类 型 网 页 
“http://www.****,com/ask/exp/4317.html 咨询 经 验 

* http: / /www.****.com/ask/online/138.html 在 线 咨 询 页 


带 有 标记 的 三 类 网 址 本 应 该 有 相应 的 分 类 ， 但 是 由 于 分 类 规则 的 匹配 问题 ， 没 有 相应 的 匹配 。 带 有 Lawfirm 关 键 字 的 对 应 律师 事务 所 ， 带 有 ask/exp、ask/online 关 键 字 的 对 应 咨询 经 验 和 在 线 咨询 页 。 
因此 在 处 理 数据 过 程 中 ， 将 其 清楚 分 类 ， 便 于 后 续 分 析 数 据 。 


综 上 分 析 的 三 种 情况 ， 可 以 发 现 大 部 分 用 户 浏览 网 页 的 情况 为 : 咨询 内 容 页 、 知 识 内 容 页 、 法 规 专 题 页 ， 咨 询 经 验 (在 线 咨询 页 ) 。 因 此 在 后 续 的 分 析 中 ， 选 取 其 中 占 比 最 多 的 两 类 (咨询 内 容 页 、 知 


识 内 容 页 ) 进行 模型 分 析 。 


上 述 在 其 他 类 别 中， 发 现 网 址 中 存在 带 “” ”的 情况 ， 对 其 进行 统计 ， 一 共有 65492 条 记录 ， 占 所 有 记录 比 为 7.8%， 统 计 分 析 此 情况 ， 其 结果 见 表 7-6。 可 以 从 表 7-6 中 得 出 网 址 中 带 有 “? ”的 情况 不 
仅仅 出 现在 其 他 类 别 中 ， 也 会 出 现在 咨询 内 容 页 和 知识 内 容 页 中 。 但 其 他 类 型 中 (1999001) 占 了 大 部 分 (98.8%) ， 因 此 需要 进一步 分 析 其 类 型 内 部 的 规律 。 


表 7-6 R? 字符 网 址 类 型 统计 表 


64 718 1999001 95. 6182 
356 301001 0. 5436 
346 107001 0 

47 101003 0. 0718 
25 102002 Ü 


表 7-7 其 他 类 型 统计 表 


1999001 总 数 自分 比 
49 894 快车 -律师 助手 77. 0945 
6166 ti T o fg a 9. 5275 
5220 咨询 发布 成 功 8. 0658 
1943 3. 0023 
1495 3102 


< 


统计 分 析 结 果 见 表 7-7， 在 1999001 类 型 中 ， 标 题 为 “快车 -律师 助手 ”的 这 类 信息 占 比 为 77%， 通 过 业务 了 解 这 是 律师 的 一 个 登录 页 面 。 标 题 为 “咨询 发 布 成 功 页 面 ”是 自动 跳 转 的 页 面 。 其 他 剩 下 的 
带 有 “? ”的 页 面 记录 ， 占 其 记录 的 15% 左 右 ， 占 所 有 记录 的 1% 左 右 。 其 他 类 型 中 的 大 部 分 为 http://www.***.com/ask/question_9152354.html?&from=androidqq， 该 类 型 网 页 是 被 分 享 过 的 ,可 以 
对 其 进行 处 理 ， 截 取 ? 前 面 的 网 址 ， 还 原 其 原 类 型 。 因 为 快 搜 和 免费 发 布 咨询 网 址 中 ， 类 型 很 混杂 ， 不 能 直接 采用 ? 进行 截取 ， 无 法 还 原 其 原 类 型 ， 且 整个 数据 集中 占 比 很 小 ， 因 此 在 处 理 数据 环节 ， 可 以 
删除 这 部 分 数据 ， 并 分 析 其 他 类 别 中 的 网 址 情况 。 网 址 中 不 包含 主 网 址 和 关键 字 的 网 址 的 记录 有 101 条 ， 类 似 的 网 址 为 http://www.baidu.com/link? 
url-O7iBD2KmoJdkHWTZHagDXrxfBFMOAwLmpid12j2d aejNfq6bwSBeqT-1Ov2jWOFMpIt5XUpXGmNIiLDIGgOrMCwstskhB5ftAYtO2 voEnu, 


在 查看 数据 的 过 程 中 ， 发 现存 在 一 部 分 这 样 的 用 户 ， 他 们 没有 点 击 具体 的 网 页 (以 .html 后 缀 结 属 ) ， 他 们 点 击 的 大 部 分 是 目录 网 页 ， 这 样 的 用 户 可 以 称 为 “ 瞎 逛 ”， 总 共有 7668 条 记录 。 统 计 其 中 的 
网 页 类 型 ， 结 果 见 表 7-8。 可 以 从 中 看 出 ， 小 部 分 是 与 知识 、 咨 询 相关 ， 大 部 分 是 地 区 、 律 师 和 事务 所 相关 的 。 这 部 分 用 户 有 可 能 是 找 律 师 服务 或 者 是 瞎 逛 的 。 


表 7-8 “NEE” ALP RATA DA 


总 数 网 页 ID 
3689 199 
1764 102 
1079 106 
846 107 
24] 101 
49 301 


从 上 述 网 址 类 型 分 布 分 析 中 ， 可 以 发 现 一 些 与 分 析 目 标 无 天 的 规则 : 咨询 发 布 成 功 页 面 ; 中 间 类 型 网 页 ( 带 有 midques 关键 字 ) ; 网 址 中 带 有 “? ”类 型 ， 无 法 还 原 其 本 身 类 型 的 快 搜 页 面 与 发 布 咨 询 
网 页 ; 重复 数据 (同一 时 间 、 同 一 用 户 ， 访 问 相 同 网 页 ) ; 其 他 类 别 的 数据 ( 主 网 址 不 包含 关键 字 ) ; 无 点 击 .html 行 为 的 用 户 记 录 ; 律师 的 行为 记录 (通过 快车 -律师 助手 判断 ) 。 记 录 这 些 规则 ， 有 利于 
在 数据 清洗 阶段 对 数据 的 清洗 操作 。 


上 述 过 程 就 是 对 网 址 类 型 进行 统计 得 到 的 分 析 结 果 ， 针 对 网 页 的 点 击 次 数 也 进行 类 似 分 析 。 


统计 分 析 原 始 数 据 用 户 浏览 网 页 次 数 的 情况 ， 其 结果 见 表 7-9， 可 以 从 中 发 现 浏览 一 次 的 用 户 占 所 有 用 户 的 58% 左 右 ， 大 部 分 用 户 浏 览 的 次 数 在 2~7， 用 户 浏览 的 平均 次 数 是 3。 


表 7-9 ”用户 点 击 次 数 统计 表 


点 击 次 数 用 户 百分比 记录 百分比 
132 084 58. 13 20. 26 
44 137 19. 42 13. 54 
17 529 8. 07 
10 112 6. 21 
5903 4. 53 
3 
2 
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从 上 述 表 7-9 中 可 以 看 出 大 约 77% 的 用 户 只 提供 了 接近 33.8% 的 浏览 量 (几乎 满足 二 八 定律 ) 。 在 数据 中 ， 点 击 次 数 最 大 值 为 42790， 对 其 进行 分 析 ， 发 现 是 律师 的 浏览 信息 (通过 律师 助手 判断 ) 。 表 
7-10 是 浏览 7 次 以 上 的 情况 进行 分 析 ， 可 以 从 中 看 出 大 部 分 用 户 的 浏览 次 数 为 8~ 100 次 。 


表 7-10 浏览 7 次 以 上 的 用 户 分 析 表 


Fath XBL FAR Sy 
8 ~ 100 12 952 


LOL ~ 1000 439 
1000 以 上 19 


表 7-11 浏览 一 次 的 用 户 行为 分 析 


网 页 类 型 ID 百分比 
101003 102 560 77. 63 
107001 19 443 14. 72 
1999001 7. 10 
301001 0. 39 
其 他 202 0. 15 


针对 浏览 一 次 的 用 户 进行 分 析 ， 其 结果 如 表 7-11 所 示 。 其 中 问题 咨询 页 占 比 为 78%， 知 识 页 占 比 为 159%， 而 且 这 些 记录 基本 上 全 都 是 通过 搜索 引擎 进入 的 。 由 此 可 以 猜测 两 种 可 能 : 一 是 用 户 为 流失 用 
户 ， 在 问题 咨询 与 知识 页 面 上 没有 找到 相关 的 需要 ; 二 是 用 户 找到 其 需要 的 信息 ， 因 此 直接 退出 。 综 合 这 些 情况 ， 可 以 将 这 些 点 击 一 次 的 用 户 行为 定义 为 网 页 的 跳出 率 。 为 了 降低 网 页 的 跳出 率 ， 就 需要 对 
用 户 进行 个 性 化 推荐 ， 帮 助 发 现 其 感 兴趣 或 者 需要 的 网 页 。 


针对 点 击 一 次 的 用 户 浏览 的 网 页 进行 统计 分 析 ， 其 结果 见 表 7-12。 可 以 看 出 排名 靠 前 都 是 知识 与 咨询 页 面 ， 因 此 可 以 猜测 大 量 用 户 的 关注 都 在 知识 或 咨询 方面 上 。 


表 7-12 ”点击 一 次 用 户 浏览 网 页 统计 


网 页 rte BL 


http://www. ** * *. com/info/shuifa/slb/2012111978933. html 1013 
http://www. ** **. com/info/hunyin/lhlawlhxy/201 10707137693. html 501 
http://www. s. com/ask/question_925675. html 423 
http://www. ****. com/ask/exp/13655. html 301 
http://www. *** *. com/ask/exp/8495. html 241 
http://www. ** **. com/ask/exp/13445. html 199 
http://www. s. com/ask/exp/17357. html 171 
3. 网 页 排名 
由 分 析 目 标 可 知 ， 个 性 化 推荐 主要 针对 html 后 绥 的 网 页 (与 物品 的 概念 类 似 ) 。 从 原始 数据 中 统计 html 后 缀 网 页 的 点 击 率 ， 其 点 击 率 排 名 的 结果 见 表 7-13。 从 表 7-13 中 可 以 看 出 ， 点 击 次 数 排名 前 20 
名 中 ，“ 法 规 专 题 ” 占 了 大 部 分 ， 其 次 是 “知识 ”， 然 后 是 “咨询 ”。 但 是 从 前 面 分 析 的 结果 中 可 知 ， 原 始 数据 中 与 咨询 主题 相关 的 记录 占 了 大 部 分 。 但 是 在 其 html 后 缀 的 网 页 排名 中 ，“ 专 题 与 知识 ”的 


占 了 大 部 分 。 通 过 业务 了 解 ， 专 题 属于 知识 大 类 里 的 一 个 小 类 。 统 计 html 后 缀 的 网 页 类 型 的 点 击 排名 时 ， 其 中 “知识 ”页 面相 对 “和 咨询” 页面 要 少 很 多 ， 见 表 7-14。 出 现 这 种 现象 的 原因 在 于 ， 当 大 量 的 用 
户 在 浏览 咨询 页 面 时 ， 呈 现 一 种 比较 分 散 的 浏览 次 数 ， 即 其 各 个 页 面 点 击 率 不 高 ， 但 是 其 总 的 浏览 量 高 于 “知识 ”。 所 以 造成 网 页 排名 中 其 “咨询 ”方面 的 排名 比较 低 。 


表 7-13 ”点击 率 排名 表 


网 址 ES 


http www. ****. com/faguizt/23. html 6503 
http://www. ****. com/info/hunyin/lhlawlhxy/201 10707137693. html 4938 
http://www. ****,. com/faguizt/9. html 4562 
http://www. * ***,. com/info/shurla/slb/2012111978933. html 4495 
http www. *:***. com/faguizt/11. html 3976 
http www., x *. com/info/ hunyin/ lhlawlhxy/20110707137693_2. html 3305 
http www. ****. com/faguizt/43. html 3251 
http: www, ** 4. com/faguizt/15. html 2718 
http: www. *x*:x**, com/faguizt/117. html 2670 
http: www. ****, com/faguizt/A1. html 2455 
http: www. *x**, com/1info/shuifa/slb/2012111978933 2. html 2161 
http://www. +x, com/laguizt/131. html 156] 
hitp s www, +*+, com/Zask/browse al401. html 1305 
http://www. ****, com/laguizt/21. html 1210 
hllp ;Z www, +*+, com/ask/exp/13655. html 1060 
http ;Z www. +*+, com/faguizt/39. html 1059 
http: www, ****,. com/faguizt/79. html 916 
hltp : www. *3*,. com/Zask/question, 925675. html 870 
http: www. +*+, com/faguizt/7. html 845 
http://www. ****. com/ask/exp/8495. html 726 


表 7-14 类 型 点 击 数 


知识 类 (包含 专题 和 知识 ) 231 702 65 483 3. 54 
咨询 类 437 132 185 478 2. 37 


从 原始 html 的 点 击 率 排行 榜 中 可 以 发 现 如 下 情况 ， 排 行 榜 中 存在 这 样 两 种 类 似 的 网 
址 http://www.****.com/info/hunyin/lhlawlhxy/20110707137693_2.html 和 http://www.****.com/info/hunyin/lhlawlhxy/20110707137693.html。 通 过 简单 访问 其 网 址 ， 发 现 其 本 身 属于 同一 网 页 ， 


但 由 于 系统 在 记录 用 户 访问 网 址 的 信息 时 会 将 其 记录 在 数据 中 。 因 此 在 用 户 访问 网 址 的 数据 中 存在 这 些 翻 页 的 情况 ， 针 对 这 些 翻 页 的 网 页 进 


表 7-15 翻 页 网 页 统计 表 


J 统计 ， 结 果 如 表 7-15 所 示 。 


网 页 次 数 比例 
http://www. *** *. com/info/ gongsi/ slbgzcdj/201312312876742. html 243 
http://www. * ** *. com/info/gongsi/slbgzcdj/201312312876742. 2. html 190 0. 782 
http://www. s. com/info/hetong/ldht/201311152872128. html 197 0. 468 
http://www. * * * *. com/info/hetong/1dht/201311152872128 2. html 421 
http://www. ** * *. com/info/hetong/1dht/201311152872128 3. html 293 0. 696 
http://www. *** *. com/info/hetong/Idht/201311152872128_4. html oa 0. 614 
http://www. ****. com/info/hunyin/hunyinfagui/20110813143541. html 
http://www. *** *. com/info/hunyin/hunyinfagui/20110813143541_2. html 234 0. 783 
http://www. * ** *. com/info/hunyin/hunyinfagui/20110813143541_3. html 175 0. 748 

通过 业务 了 解 ， 同 一 网 页 中 登录 次 数 最 多 都 是 从 外 部 搜索 引擎 直接 搜索 到 的 网 页 。 分 析 其 中 的 浏览 翻 页 情况 ， 平 均 大 概 60%~80% 的 人 会 选择 看 下 一 页 ， 基 本 每 一 页 都 会 丢失 20%~40% 的 点 击 率 ， 点 击 


“知识 ”页 面 中 大 部 分 都 存在 翻 页 的 情况 。 这 样 就 造成 了 大 量 的 用 户 选 择 浏览 了 2~5 页 后 ， 很 少 会 选择 
度 ， 不 利于 企业 的 长 期 稳定 发 展 。 


率 会 出 现 衰减 的 情况 。 同 时 对 “知识 ”类 型 网 页 进行 检查 ， 可 以 发 现 页 面 上 并 无 全 页 显示 功能 ， 但 是 
浏览 完全 部 内 容 。 因 此 用 户 会 直接 放弃 此 次 的 搜索 ， 从 而 增加 了 网 站 的 跳出 率 ， 降 低 了 客户 的 满意 


7.2.3 ”数据 预 处 理 


本 案例 在 探索 分 析 原 始 数据 的 基础 上 ， 发 现 与 分 析 目 标 无 天 或 模型 需要 处 理 的 数据 ， 针 对 此 类 数据 进行 处 理 。 其 中 涉及 的 数据 处 理 方式 有 : 数据 清洗 、 数 据 集成 和 数据 变换 。 通 过 这 几 类 处 理 方式 ， 将 


原始 数据 处 理 成 模型 需要 的 输入 数据 ， 其 数据 处 理 流程 图 如 图 7-6 所 示 。 


开始 
归并 翻 页 
的 网 址 
属性 规约 
数据 分 类 
处 理 


图 7-6 ”数据 处 理 流程 图 


1. 数 据 清洗 


从 探索 分 析 的 过 程 中 发 现 与 分 析 目 标 无 天 的 数据 ， 归 纳 总 结 其 数据 满足 如 下 规则 : 中 间 页 面 的 网 址 、 咨 询 发 布 成 功 页 面 、 律 师 登录 助手 的 页 面 等 。 将 其 整理 成 删除 数据 的 规则 ， 其 清洗 的 结果 见 表 7- 
16。 从 表 7-16 中 可 以 发 现 ， 律 师 用 户 信息 占 所 有 记录 的 22% 左 右 。 其 他 类 型 的 数据 占 比 很 小 ， 大 概 为 5% 左 右 。 


表 7-16 规则 清洗 表 


删除 数据 规则 删除 数据 记录 原始 数据 记录 自分 比 
中 间 类 型 网 页 ( 带 midques 关键 字 ) 2036 837 450 0. 24 
(快车 -律师 助手 ) 律师 的 浏览 信息 185 437 
咨询 发 布 成 功 4819 
EE 网 址 不 包含 关键 字 
快 搜 与 免费 发 布 咨询 的 记录 9982 
其 他 类 别 带 有 ? 的 记录 571 837 450 0. 07 


837 450 22. 14 
837 450 0. 58 
837 450 


837 450 1,19 


JG . html 点 击 行 为 的 用 户 记 录 7668 837 450 0. 92 


重复 记录 25 598 837 450 3. 06 


p 
e 
je 
e 


经 过 上 述 数据 清洗 后 的 记录 中 仍然 存在 大 量 的 目录 网 页 (可 理解 为 用 户 浏览 信息 的 路 径 ) ， 在 进入 推荐 系统 时 ， 这 些 信息 的 作用 不 大 ， 反 而 会 影响 推荐 的 结果 ， 因 此 需要 从 中 进一步 筛选 html 后 绎 的 网 
页 。 根 据 分 析 目 标 以 及 探索 结果 可 知 ， 咨 询 与 知识 是 其 主要 业务 来 源 ， 故 需 簿 选 咨询 与 知识 相关 的 记录 。 将 此 部 分 数据 作为 模型 分 析 需 要 的 数据 ， 其 数据 表 见 表 7-17。 


表 7-17 数据 清洗 后 的 数据 表 


clientID |timestamp [timestamp folpagePath 


意 伤害 
973705742 [140100 [Mozila’5.0 (Windows 7 |2048326726120483267|14229732683|20150203 2l /ask/exp'171120150203 1999001 非 广州 户 敌人 员 可 以 在 | 
310468107 140100 |Mozilla/5.0 (V|Windows Xe|1639801603|16398016|14229732773|2015.02.03 21/ask/question|20150203 |http: 


207452174 [140100 |Mozilla/5.0 (Windows X 589522864.158952288) 14229732952 2015-02-03 2] /ask/questior|20150203 | 2 
32282638 [140100 [Mozilla/5.0 (Windows 7 225597321.122559732 14229733050]2015-02-03 2] infallaodong/|20150203 |http: 
FERRO TEAN 
TARUS EAE 
net 
1768282564 40100 |Mozilal5.0 (i| Windows 7 [385670441.158567044 | 14229733215 2015-02-03 2] info/zhaiquar 20150203 | T jo lemez Iig |wwwhaosou.http: wiww.haosou.comis | wewchaosou. 
2897940471 140100 1468293794, 14682937] 14229733242 2015-02-03 21/ask/auestion|20150203 | 网 和 商品 房 习 喜人 同 与 此 9 AFTANA 。 www.haosou lhttp:/imww.haosou.com’s?ilwwwhaosou. 
i Roo 


EAE 
Rowe 
4207369844] 140100 [Mozilla’5.0 (| Windows 7 256955339. 1125605530] 14229733332 2015-02-03 2{/ask/question| 20150208 | S35, staal! RABI 
4173218417140100 Mozilal5.0 (i Windows Xe] 1474658488 14746584] 142297333892015-02-03 2f/ask/question}20150203 |http: 
; 1 | AKP HEA REA [26 : nea 


' g SARE 
2631167857140100 [Mozilla/5.0 (Windows 7 |1474537889|14745378|14229733520|201502.03 2f/ask/orowse [20150203 |hito:/wmw.lawtime.cniaskibrowse a1401.html |101002 |wwwJawtim| 广 州 法 和 次 询 - 全 部 91 | 故意 伤害 
114516081 |140100 _|Mozillal4.0 (clWindows X191 1092104. 1191 109210] 14229733532|2015-02-03 2] /ask/question|20150203 |hitp://www.lawtime.cn/ask/question 9097023.html ERA 


3802099569 140100 |Mozilla/4.0 (c|Windows XF|2027551247 }202755124 14229733536|2015-02-03 2]/ask/question|20150203 |http:/www.lawtime.cn/ask/question 105139.htm| 1101003 |www.lawtim| 如 果 想 买房 子 ， 但 没有 用 产权 转移 DARAS 。 www.haosou. http: /www.haosou.com/s?i| waw.haosou.t 
3561453328 140100  |Mozilla/5.0 (i |OS |! 14229733586/2015-02-03 2]/ask/question}20150203 |http:/www.lawtime.cn/as«/question 6365652.html | 


1561948430140100 _[Mozila5.0 (Windows YF] 1610370014]16103700]|14220733602|2015-02-03 alaskauestionl20150203 |http:www avtime.cnaskquestion 3262403.htm BASICS ps armii BAD beid jhtpywwwbqiRRDiRbad | 


2. 数 据 变换 


由 于 在 用 户 访问 知识 的 过 程 中 ， 存 在 翻 页 的 情况 ， 不 同 的 网 址 属于 同一 类 型 的 网 页 ， 见 表 7-18。 数 据 处 理 过 程 中 需要 对 这 类 网 址 进行 处 理 ， 最 简单 的 处 理 方法 是 删除 翻 页 的 网 址 。 但 是 用 户 在 访问 页 面 
的 过 程 中 ， 是 通过 搜索 引擎 进入 网 站 的 ， 所 以 其 入 口 网 页 不 一 定 是 其 原始 类 别 的 首页 ， 采 用 删除 的 方法 会 损失 大 量 的 有 用 数据 ， 在 进入 推荐 系统 时 ， 会 影响 推荐 结果 。 针 对 这 些 网 页 需要 还 原 其 原始 类 别 |， 
首先 需要 识别 翻 页 的 网 址 ， 然 后 还 原 翻 页 的 网 址 ， 最 后 针对 每 个 用 户 访问 的 页 面 进行 去 重 操作 ， 其 操作 结果 见 表 7-19。 


- 


AT-18 用 户 翻 页 网 址 表 


AA ID 访问 网 页 
97885 1598 2015-02-11 15:24:25 http://www. #*##*. com/info/ jiaotong/ jtlawdljtaq£/201410103308246. html 
978851598 2015-02-11 15:25:46 http://www. ** **. com/info/jiaotong/ jtlawdljtaqf/201410103308246_2. html 


978851598 2015-02-11 15:25:52 http://www. ****. com/info/jiaotong/ jtlawdljtagf/201410103308246_4. html 
978851598 2015-02-11 15: 26: 00 http://www. *#*#**. com/info/jiaotong/ jtlawdljtagf/201410103308246_5. html 
978851598 2015-02-11 15:26: 10 http://www. ****. com/info/jiaotong/ jtlawdljtaqf/201410103308246. 6. html 


表 7-19 ”数据 变换 后 的 用 户 翻 页 表 


用 户 ID 时 间 访问 网 页 
978851598 | 2015-02-11 15:26:10 http://www. ****. com/info/jiaotong/jUlawdljtaqf/201410103308246. html 


由 于 在 探索 阶段 发 现 有 部 分 网 页 的 所 属 类 别 是 错误 的 ， 需 对 其 数据 进行 网 址 分 类 ， 且 分 析 目 标 是 分 析 “咨询 ”类 别 与 “知识 ”类 别 ， 因 此 对 这 些 网 址 进行 手动 分 类 ， 其 分 类 的 规则 和 结果 见 表 7-20， 其 
中 对 网 址 中 包含 ask、askzt 关 键 字 的 记录 人 为 归 类 至 “咨询 ”类 别 ， 将 包含 zhishi、faguizt 天 键 字 的 网 址 归 类 为 “知识 ”类 别 。 


表 7-20 网 页 类 别 规则 


xs zE is 


因为 目标 是 为 用 户 提供 个 性 化 的 推荐 ， 在 处 理 数据 的 过 程 中 需要 进一步 对 数据 进行 分 类 ， 其 分 类 方法 如 图 7-7 所 示 图 中 的 “知识 ”部 分 是 由 很 多 小 的 类 别 组 成 的 。 由 于 在 提供 的 原始 数据 中 “知识 ”类 别 


无 法 进行 内 部 分 类 ， 所 以 从 业务 上 分 析 ， 可 以 采用 其 网 址 的 构成 对 其 进行 分 类 。 对 表 7-21 中 的 用 户 访问 记录 进行 分 类 ， 其 分 类 结果 见 表 7-22。 


表 7-21 网 页 分 类 表 


FAR 网 址 
863142519 http://www. * +*+., com/info/minshi/fagui/2012111982349. html 
863142519 http://www. xx, com/info/shuifa/yys/201403042882164. 2. html 
863142519 http://www. * ***. com/info/jiaotong/ jtnews/20130123121426. html 


表 7-22 网 页 分 类 结果 表 


J TE 


图 7-7 网 页 分 类 图 


统计 分 析 每 一 类 中 的 记录 ， 以 “知识 ”类 别 中 的 婚姻 法 为 例 进行 统计 分 析 ， 结 果 见 表 7-23。 可 以 发 现 其 网 页 的 点 击 率 基 本 满足 二 八 定律 ， 即 “80% 的 网 页 只 占 了 浏览 量 的 20% 左 右 ” ， 通 过 这 个 规 
按 点 击 行为 进行 分 类 分 析 ，20% 的 网 页 是 热点 网 页 ， 其 他 80% 的 页 面 属于 点 击 次 数 少 的 。 因 此 在 进行 推荐 过 程 中 ， 需 要 将 其 分 开 推荐 ， 以 达到 推荐 的 最 优 效果 。 


表 7-23 ”婚姻 知识 点 击 次 数 统计 表 


3. 属 性 规约 


RU, 


由 于 推荐 系统 模型 的 输入 数据 需要 ， 需 对 处 理 后 的 数据 进行 属性 规约 ， 提 取 模 型 需要 的 属性 。 本 案例 中 模型 需要 的 数据 属性 为 用 户 和 用 户 访问 的 网 页 。 因 此 将 其 他 属性 删除 ， 只 保留 用 户 与 用 户 访问 的 
网 页 数据 ， 其 输入 数据 集 见 表 7-24。 


表 7-24 模型 输入 数据 集 


HA 网 页 
2018622772 http://www. ** **. com/info/hunyin/hunyinfagui/201312112874686. html 
1032300855 http://www. ****. com/info/hunyin/lihuntiaojian/201408273306990. html 
1032300856 http://www. ****. com/info/ gongsi/ gzezgqgz/ 2010090150526. html 
3029700497 http://www. ** * * . com/info/xingshisusongfa/xingshipanjueshu/201 10427115148. html 
1971856960 http://www. s. com/info/hunyin/lhlawlhxy/20110707137693. html 
1875780750 http://www. * ***. com/info/xingshisusongla/xingshipanjueshu/201 10706119307. html 
1032299799 http://www. ****. com/info/xingshisusongfa/ xingshipanjueshu/201 10503115363. html 
1033227430 http://www. ****, com/info/hunyin/ yizhu/20120924165440. html 
1928928104 http://www. ** * *. com/info/hunyin/hunyinfagui/201 11012157587. html 
2937714434 http://www. ** * *. com/info/jiaotong/ jtaqchangshi/20121218120961. html 
3029700498 http://www. **#*, com/info/fangdichan/tudizt/zhaijidi/20111019165581. html 
1033227430 http://www. ****. com/info/hunyin/yizhudingli/2010102668080. html 
1032299831 http://www. ** **. com/info/yimin/England/yymtj/20100119259. html 
3029700501 http://www. ** **. com/info/hunyin/lihuntiaojian/2011010894137. html 
3029700365 http://www. ** **. com/info/fangdichan/tudizt/zhaijidi/201405 152978392. html 
1033227430 http://www. s. com/info/hunyin/ yizhu/20120924165440. html 
3029700372 http://www. s. com/info/fangdichan/tudizt/zhaijidi/201405 152978392 2. html 
1033227430 http://www. s. com/info/hunyin/ yizhu/20120924165439. html 
1875780622 http://www. ****. com/info/hunyin/ wuxiaohunyin/201412193311538. html 


7.24 模型 构建 


在 实际 应 用 中 ， 构 造 推荐 系统 时 ， 并 不 是 采用 单一 的 某 种 推荐 方法 进行 推荐 。 为 了 实现 较 好 的 推荐 效果 ， 大 部 分 都 结合 多 种 推荐 方法 组 合 推荐 结果 ， 最 后 得 出 推荐 结果 ， 在 组 合 推荐 结果 时 ， 可 以 采用 
串 行 或 者 并 行 的 方法 。 本 例 展示 的 是 并 行 的 组 合 方法 ， 如 图 7-8[1 所 示 。 


推荐 引擎 1 


推荐 引擎 2 
初始 推荐 结果 


推荐 引擎 人 N 


针对 此 项 目的 实际 情况 ， 其 分 析 目 标的 特点 为 : 长 尾 网 页 丰富 、 用 户 个 性 化 需求 强烈 、 推 荐 结果 实时 变化 ， 以 及 结合 原始 数据 的 特点 : 网 页 数 明显 小 于 用 户 数 。 本 例 采 用 基于 物品 的 协同 过 滤 推 荐 系统 


对 用 户 进行 个 性 化 推荐 ， 以 其 推荐 结果 作为 推荐 系统 结果 的 重要 部 分 。 同 时 ， 推 荐 的 结果 是 利用 用 户 的 历史 行为 进行 推荐 ， 使 用 户 更 容易 信服 其 推荐 结果 的 可 靠 性 。 


基于 物品 的 协同 过 滤 系 统 的 一 般 处 理 过 程 为 : 分 析 用 户 与 物品 的 数据 集 ， 通 过 用 户 对 项 目的 浏览 与 否 (喜好 ) 找到 相似 的 物品 ， 然 后 根据 用 户 的 历史 喜好 ， 推 荐 相似 的 项 目 给 目标 用 户 。 图 7-9 是 基于 物 
品 的 协同 过 滤 推荐 系统 图 自 ， 从 图 中 可 知 用 户 A 喜 欢 物 品 A 和 物品 C， 用 户 B 喜 欢 物品 A、 物 品 B 和 物品 C， 用 户 C 喜 欢 物品 A。 从 这 些 用 户 的 历史 喜好 可 以 分 析出 物品 A 和 物品 C 是 比较 类 似 的 ， 喜 欢 物 品 A 的 人 
都 喜欢 物品 C， 基 于 这 个 数据 可 以 推断 用 户 C 很 有 可 能 也 喜欢 物品 C， 所 以 系统 会 将 物品 5 推荐 给 用 户 C。 


用 户 C 


图 7-9 ”基于 物品 的 推荐 系统 原理 
根据 上 述 处 理 过 程 可 知 ， 基 于 物品 的 协同 过 滤 算 法 主要 分 为 两 步 : 
1) 计算 物品 之 间 的 相似 度 。 
2) 根据 物品 的 相似 度 和 用 户 的 历史 行为 给 用 户 生成 推荐 列表 。 


其 中 关于 物品 相似 度 计算 的 方法 有 : 夹 角 余弦 、 杰 卡 德 (Jaccard) 相似 系数 和 相关 系统 等 。 将 用 户 对 某 一 个 物品 的 喜好 或 者 评分 作为 一 个 向 量 ， 例 如 所 有 用 户 对 物品 1 的 评分 或 者 喜好 程度 表示 为 
A1= (X11，X21，X31…Xn1) ， 所 有 用 户 对 物品 M 的 评分 或 者 喜好 程度 表示 为 AM= (x1m，x2m，x3m.…xnm) ， 其 中 mm 为 物品 ，n 为 用 户 数 。 可 以 采用 上 述 几 种 方法 计算 两 个 物品 之 间 的 相似 度 ， 其 计算 公式 
见 表 7-25。 由 于 用 户 的 行为 是 二 元 选择 (0-1 型 ) ， 因 此 本 例 在 计算 物品 的 相似 度 过 程 中 ， 采 用 杰 卡 德 相似 系数 的 方法 。 


表 7-25 ”相似 度 计 算 公 式 


方法 公式 说 明 


取 值 范围 为 [ -1, 11, RREAK 
+1 时 ， 表 明 两 个 向 量 有 较 强 的 相似 性 。 
当 余 蓄 值 为 0 时 ， 表 示 不 相关 


KARIZ 


说 明 
物 T M 时 用 P 总 数 分 F : A | (1 A M 表示 
同时 喜欢 物品 1 和 物品 M 的 用 户 数 


万 法 


杰 卡 德 相似 系数 


相关 系数 的 取 值 范围 是 [ -1, 1). 
相关 系数 的 绝对 值 越 大 ， 表 明 两 者 相关 


相关 系数 


在 协同 过 滤 系 统 分 析 的 过 程 中 ， 用 户 行为 有 很 多 种 ， 如 浏览 网 页 与 否 、 是 否 购买 、 评 论 、 评 分 、 点 赞 等 行为 。 采 用 统一 的 方式 表示 所 有 这 些 行为 是 很 困难 的 ， 因 此 只 能 针对 具体 的 分 析 目 标 进行 具体 表 
示 。 在 本 例 中 ， 原 始 数据 只 记录 了 用 户 访问 网 站 浏览 行为 ， 因 此 用 户 的 行为 定义 为 浏览 网 页 与 否 ， 并 没有 类 似 电 子 商 务 网 站 上 的 购买 、 评 分 和 评论 等 用 户 行为 。 


完成 各 个 物品 之 间 相 对 度 的 计算 后 ， 即 可 构成 一 个 物品 之 间 的 相似 度 和 矩阵， 如 表 7-26 所 示 。 采 用 相似 度 和 矩阵， 推荐 算法 会 给 用 户 推荐 与 其 物品 最 相似 的 K 个 物品 。 公 式 P=SIM*R 度 量 了 推荐 算法 中 用 户 
对 所 有 物品 的 感 兴趣 程度 。 其 中 R 代 表 用 户 对 物品 的 兴趣 ，SIM 代 表 所 有 物品 之 间 的 相似 度 ，P 为 用 户 对 物品 感 兴趣 的 程度 。 因 为 用 户 的 行为 是 二 元 选择 (258) ， 所 以 用 户 对 物品 的 兴趣 R 矩 阵 中 只 取 值 
为 0 或 1。 


表 7-26 FBA FETE 


由 于 推荐 系统 是 根据 物品 的 相似 度 以 及 用 户 的 历史 行为 ， 对 用 户 的 兴趣 度 进行 预测 并 推荐 ， 因 此 在 评价 模型 时 需要 用 到 一 些 评测 指标 。 为 了 得 到 评测 指标 ， 一 般 是 将 数据 集 分 成 两 部 分 : 大 部 分 作为 模 
型 训练 集 ， 小 部 分 数据 作为 测试 集 。 通 过 训练 集 得 到 的 模型 ， 在 测试 集 上 进行 预测 ， 然 后 统计 出 相应 的 评测 指标 ， 通 过 各 个 评测 指标 的 值 可 以 知道 预测 效果 的 好 与 坏 。 


本 例 采 用 交叉 验证 的 方法 完成 模型 的 评测 ， 具 体 方法 为 : 将 用 户 行为 数据 集 按照 均匀 分 布 随机 分 成 M 份 (本 例 取 M=10) ， 挑 选 一 份 作为 测试 集 ， 将 剩 下 的 M-1 份 作为 训练 集 。 然 后 在 训练 集 上 建立 模 
型 ， 并 在 测试 集 上 预测 用 户 行为 ， 统 计 出 相应 的 评测 指标 。 为 了 保证 评测 指标 不 出 现 过 拟 合 的 结果 ， 需 要 进行 M 次 实验 ， 并 且 每 次 都 使 用 不 同 的 测试 集 。 然 后 将 M 次 实验 测 出 的 评测 指标 的 平均 值 作为 最 终 
的 评测 指标 。 

1. 基 于 物品 的 协同 过 滤 


基于 协同 过 滤 推 荐 算法 包括 两 部 分 : 基于 用 户 的 协同 过 滤 推 荐 和 基于 物品 的 协同 过 滤 推 荐 。 本 文 结合 实际 的 情况 ， 选 择 基于 物品 的 协同 过 滤 算 法 进行 推荐 ， 其 模型 构建 的 流程 如 图 7-10 所 示 。 


训练 集 


户 _ ”物品 矩阵 
— 物品 相似 矩阵 


图 7-10 基于 物品 协同 过 滤 建 模 流程 图 


其 中 训练 集 与 测试 集 是 通过 交叉 验证 的 方法 划分 后 的 数据 集 。 由 协同 过 滤 算 法 的 原理 可 知 ， 人 在 建立 推荐 系统 时 ， 建 模 的 数据 量 越 大 ， 越 能 消除 数据 中 的 随机 性 ， 但 是 数据 量 越 大 ， 模 型 建立 以 及 模型 计 
算 耗 时 越久 。 本 文选 择 数 据 处 理 后 的 婚姻 与 咨询 的 数据 ， 其 数据 分 布 情况 如 表 7-27 所 示 。 在 实际 应 用 中 ， 应 当 以 大 量 的 数据 构建 模型 ， 这 样 得 到 的 推荐 结果 相对 好 些 。 


表 7-27 模型 数据 统计 表 


数据 类 型 训练 数据 总 数 物品 个 数 访问 平均 次 数 测试 数据 总 数 
由 于 实际 数据 中 ， 物 品 数目 过 多 ， 建 立 的 用 户 物 品 和 矩阵 与 物品 相似 度 和 矩阵 很 庞大 ， 因 此 图 7-10 中 采用 一 个 简单 示例 ， 在 用 户 物品 矩阵 的 基础 上 采用 杰 卡 德 相 似 系数 的 方法 ， 计 算出 物品 相似 度 和 矩阵 。 通 
过 物品 相似 矩阵 与 测试 集 的 用 户 行为 ， 计 算 用 户 的 兴趣 度 ， 获 得 推荐 结果 ， 进 而 计算 出 各 种 评价 指标 。 


为 了 对 比 个 性 化 推荐 算法 与 非 个 性 化 推荐 算法 的 好 坏 ， 本 文选 择 了 两 种 非 个 性 化 算法 和 一 种 个 性 化 算法 进行 相应 的 建 模 并 对 模型 进行 评价 与 分 析 。 其 中 两 种 非 个 性 化 算法 为 : Random 算 法 、Popular 
算法 ， 其 中 Random 算 法 每 次 都 随机 挑选 用 户 没 有 产生 过 行为 的 物品 推荐 给 当前 用 户 。Popular 算 法 是 按照 物品 的 流行 度 给 用 户 推荐 他 没有 产生 过 行为 的 物品 中 最 热门 的 物品 。 个 性 化 算法 为 : 基于 物品 的 
协同 过 滤 算 法 。 利 用 这 3 种 算法 ， 采 用 相同 的 交叉 验证 方法 ， 对 数据 进行 建 模 分析 ， 获 得 各 个 算法 的 评价 指标 。 


2. 模 型 评价 


评价 一 个 推荐 系统 一 般 可 以 从 如 下 几 个 方面 整体 考虑 : 用 户 、 物 品 提供 者 、 提 供 推荐 系统 网 站 。 好 的 推荐 系统 能 够 满足 用 户 的 需求 ， 推 荐 其 感 兴 趣 的 物品 。 推 荐 的 物品 中 ， 不 能 全 都 是 热门 的 物品 ， 也 
需要 用 户 反 馈 意 见 帮助 完善 其 推荐 系统 。 因 此 ， 好 的 推荐 系统 不 仅 能 预测 用 户 的 行为 ， 而 且 能 帮助 用 户 发 现 可 能 会 感 兴趣 ， 但 却 不 易 被 发 现 的 物品 。 推 荐 系统 还 应 该 帮助 商家 将 长 尾 中 的 好 商品 发 掘 出 来 ， 
推荐 给 可 能 会 对 它们 感 兴 趣 的 用 户 。 在 实际 应 用 中 ， 评 测 推荐 系统 是 必 不 可 少 的 。 评 测 指标 主要 来 源 于 如 下 3 种 评测 推荐 效果 的 实验 方法 ， 即 离线 测试 、 用 户 调查 和 在 线 实 验 。 


1) 离线 测试 是 从 实际 系统 中 提取 数据 集 ， 然 后 采用 各 种 推荐 算法 对 其 进行 测试 ， 获 得 各 个 算法 的 评测 指标 。 这 种 实验 方法 的 好 处 是 不 需要 真实 用 户 参 与 。 


Qua 离线 测试 的 指标 和 实际 商业 指标 存在 差距 ， 比 如 ， 预 测 准 确 率 和 用 户 满意 度 之 间 就 存在 很 大 差别 ， 高 预测 准确 率 不 等 于 高 用 户 满意 度 。 所 以 在 推荐 系统 投入 实际 应 用 之 前 ， 需 要 利用 测试 的 推 
荐 系统 调查 用 户 。 


2) 用 户 调查 利用 测试 的 推荐 系统 调查 真实 用 户 ， 观 察 并 记录 他 们 的 行为 ， 并 让 他 们 回答 一 些 相关 的 问题 。 分 析 用 户 的 行为 和 他 们 反馈 的 结果 ， 判 断 测试 推荐 系统 的 好 坏 。 
3) 在 线 测试 顾名思义 就 是 直接 将 系统 投入 实际 应 用 中 ， 通 过 不 同 的 评测 指标 比较 与 不 同 推荐 算法 的 结果 ， 如 点 击 率 、 跳 出 率 等 


由 于 本 例 中 的 模型 是 采用 离线 的 数据 集 构建 的 ， 因 此 在 模型 评价 阶段 采用 离线 测试 的 方法 获取 评价 指标 。 因 为 不 同 表现 方式 的 数据 集 的 评测 指标 也 不 同 ， 针 对 不 同 的 数据 方式 ， 其 评测 指标 的 公式 见 表 
7-28, 


表 7-28 评测 指标 表 


数据 表现 方式 指标 3 


预测 准确 度 RMSE = 
ye yh Tee RE IP T 2PR 
分 类 准确 度 precesion = Tp FP call = —, FN i us P 


某 些 电子 商务 网 站 具有 对 物品 打分 的 功能 。 在 此 种 数据 情况 下 ， 如 果 要 预测 用 户 对 某 个 物品 的 评分 ， 就 需要 用 到 预测 准确 度 的 数据 表现 方式 ， 其 中 评测 的 指标 有 均 方 根 误 差 (RMSE) 和 平均 绝对 误差 
(MAE) 。 其 中 rui 代 表 用 户 u 对 物品 的 实际 评分 ，rvi 代 表 推 荐 算法 预测 的 评分 ，N 代 表 实际 参与 评分 的 物品 总 数 。 


在 电子 商务 网 站 中 ， 用 户 只 有 二 元 选择 ， 如 : 喜欢 与 不 喜欢 、 浏 览 与 否 等 。 针 对 这 类 数据 预测 ， 需 要 用 分 类 准确 度 ， 其 中 的 评测 指标 有 准确 率 (P. precesion) ， 它 表示 用 户 对 一 个 被 推荐 产品 感 兴趣 
的 可 能 性 。 召 回 率 (R, recall) 表示 一 个 用 户 喜 欢 的 产品 被 推荐 的 概率 。F1 指 标 表 示 综 合 考虑 准确 率 与 召回 率 因素 ， 更 好 地 评价 算法 的 优势 。 其 中 相关 的 指标 说 明 见 表 7-29。 


表 7-29 分 类 准确 度 指标 说 明 


预测 


合计 
KERTOEN (A 
合计 


TP + FP TN + FN 


除了 上 述 指标 外 ， 还 有 如 下 一 些 评价 指标 : 
. 真正 率 TPR=TP/ (TP+EN) : 正 样本 预测 结果 数 / 正 样本 实际 数 ， 即 召回 率 。 


| 假 正 率 FPR=FP/ (FP+TN) : 被 预测 为 正 的 负 样 本 结果 数 / 负 样 本 实际 数 。 


—e— random items 


——a— popular items 


precision 
0.000 0.005 0.010 0.015 0.020 0.025 


—_+— item-based CF 


0.0 0.1 0.2 0.3 0.4 
recall 
图 7-11 婚姻 知识 类 准确 率 - 召 回 率 图 


由 于 本 例 用 户 的 行为 是 二 元 选择 ， 因 此 评价 模型 的 指标 为 分 类 准确 度 指标 。 针 对 婚姻 知识 类 与 咨询 类 的 数据 构造 模型 ， 通 过 3 种 推荐 算法 ， 以 及 不 同 K 值 (推荐 个 数 ， 在 K 取 值 为 3、5、10、15、20、 
30) 的 情况 下 ， 得 出 的 准确 率 与 召回 率 的 评价 指标 。 其 中 婚姻 知识 类 的 评价 指标 如 图 7-11 所 示 ， 从 图 中 可 以 看 出 ，Popular 算 法 随 着 推荐 个 数 K 的 增加 ， 其 召回 率 R 变 大 ， 准 确 率 P 变 小 。 基 于 物品 的 协同 过 
滤 算 法 确 不 同 ， 随 着 推荐 个 数 K 的 增加 ， 其 召回 率 R 变 大 ， 准 确 率 P 也 会 上 升 。 当 达到 某 一 临界 点 时 ， 其 准确 率 P 随 着 K 的 增 大 而 变 小 。 这 3 种 算法 的 其 他 评价 指标 见 表 7-30， 从 表 7-30 中 可 以 看 出 ， 在 此 数据 
下 ， 随 机 推荐 的 结果 最 差 ， 但 是 随 着 K 值 的 增加 ， 其 F1 值 也 在 增加 ， 而 Popular 算 法 的 推荐 效果 随 着 K 值 的 增加 会 越 来 越 差 ， 其 F1 值 一 直 在 下 降 ， 相 对 协同 过 滤 算 法 ， 在 K=5 时 ， 其 F1 值 最 大 ， 然 后 也 会 随 着 
K 值 增加 而 下 降 。 比 较 不 同 算法 之 间 的 差异 ， 从 图 7-11 中 可 以 看 出 ， 随 机 推荐 的 效果 最 差 。K 取 值 为 3 和 和 5 时 ，Popular 算 法 优 于 协同 过 滤 算 法 。 但 是 当 K 值 增加 时 ， 其 推荐 效果 就 不 如 协同 过 滤 算 法 。 从 图 7- 
11 中 可 以 看 出 协同 过 滤 算 法 相对 较 “ 稳 定 ”。 


表 7-30 ”婚姻 知识 类 模型 评价 指标 


TE alus 


item-based CF5 | 0.05 | 3.68 | 126 | 4222.05 | 1.48% [16.29% [16.29% | 0.09% | 1.719 


对 于 咨询 类 的 数据 ，3 种 算法 得 出 的 准确 率 与 召回 率 的 结果 如 图 7-12 所 示 。 其 中 可 以 看 出 Popular 算 法 、 随 机 算法 的 准确 率 和 召回 率 都 很 低 。 但 是 协同 过 滤 算 法 推荐 的 结果 比 其 他 要 好 得 多 。 造 成 这 样 的 
原因 主要 是 数据 问题 : 咨询 类 的 数据 量 不 够 ;业务 上 分 析 咨 询 的 页 面 会 很 多 ， 很 少 存在 大 量 访问 的 页 面 。 算 法 的 其 他 评价 指标 见 表 7-31， 从 表 7-31 中 可 以 看 出 ， 在 此 数据 下 ，Popular 算 法 与 随机 推荐 算法 
的 推荐 结果 较 差 ， 其 F1 值 都 接近 0。 协 同 过 滤 算 法 ， 在 K=5 时 ， 其 F1 值 最 大 ， 然 后 也 会 随 着 K 值 增加 而 下 降 。 针 对 这 种 情况 ， 协 同 过 滤 算 法 优 于 其 他 两 种 算法 。 
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表 7-31 咨询 类 模型 评价 指标 


a [e pe [m Dm eem em [m Dem Due 
item- based CF 15 0. 31 3. 23 s [a [amar jt 15.21% 


通过 基于 项 目的 协同 过 渡 算 法 ， 针 对 每 个 用 户 推 荐 相似 度 排名 前 五 的 项 目 ， 其 婚姻 知识 类 推荐 结果 如 表 7-32 所 示 ， 其 咨询 类 的 推荐 结果 见 表 7-33。 
表 7-32 ”婚姻 知识 类 推荐 结果 

HA 访问 网 址 推荐 网 址 

| 1 |" http://www. * * x . com/info/hunyin/lihunshouxu/ 
201312042874014. html" 

| 2 |" http://www. * x s . com/info/hunyin/lhlawlhxy/ 
201403182883138. html" 

" http://www. * * * s . com/info/hunyin/ 13 |" http://www. * * * , com/info/hunyin/hunyinfagui/ 
Ihlawlhxy/20110707137693. html" 201411053308986. html" 

[4 |" http://www. * * * +. com/info/hunyin/jihuashengyu/ 
20120215163891. html" 

[5 |" http://www. * * * * . com/info/hunyin/hynews/ 
201407073018800. html" 
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FAR 访问 网 址 推荐 网 址 


| 1 |" http://www. * * * * . com/info/hunyin/fuyangyiwu/ 
" http://www. * s * * .com/info/hunyin/ | 201404222884700. html" 


lhlawlhss/2010120781273. html" 2 |" http://www. * * * * . com/info/hunyin/hunyinfagui/ 
" http://www. * * * * , com/info/hunyim/ | 201410153308460. html" 
11175899 Ihlawlhzx/20120821165124. html" [3 |" http://www. *** * . com/info/hunyin/hunyinjiufen/ 
" http://www. * * * * .com/info/hunyin/ | pohuaijunhunzuiZ20130719167114. html" 
Ihlawlhzx/201311292873596. html" (4 |" http: “www. * * * * . com/info/hunyin/jiehuncaili/ 
" http://www. * * o * .com/info/hunyin/ | 2011011297291. html" 
lhlawlhzx/201408253306854. html" | |" http://www. c * * x . com/info/hunyin/lhlawlhxy/ 
2011010492149. html" 
418673 "http://www. * x * . com/info/hunyin/ li- null 


hunfangchan/20110310125984. html" 


表 7-33 咨询 类 推荐 结果 


用 户 推荐 网 址 


| 1 |"http://www. ****. com/ask/question_10243783. html" 


"http://www. * * * * . com/ask/question_ 


l 
E [2]"http;Z www. s. com/ask/question 10244541. html" 
10244513. html" lios 
3951071 . (3) "http://www. ****. com/ask/question 10223080. html" 
"http://www. * * * * . com/ask/question_ 
| 4 | "http://www. ****. com/ask/question 10223488. html" 
10244238. html" ite: ; 
5 | "http://www. ****. com/ask/question_10246475. html" 
"http://www. * * * * . com/ask/question_ 
l 10383635. html" 
21777264 gi , | 1 | "http://www. s. com/ask/question 10162051. html" 
"http://www. * * * * . com/ask/question_ 
10383635. html" 
22027534 "http://www. * * * * . com/ask/question_ null 


10290587. html" 


从 上 述 推荐 结果 的 表 中 可 知 ， 根 据 用 户 访问 的 相关 网 址 ， 对 用 户 进行 推荐 。 但 是 其 推荐 结果 存在 null 的 情况 。 这 种 情况 是 由 于 在 目前 的 数据 集中 ， 出 现 访问 此 网 址 的 只 有 单独 一 个 用 户 ， 在 协同 过 滤 算 
法 中 计算 它 与 其 他 物品 的 相似 度 为 0， 所 以 就 出 现 无 法 推荐 的 情况 。 一 般 出 现 这 样 的 情况 ， 在 实际 中 可 以 考虑 采用 其 他 非 个 性 化 推荐 方法 进行 推荐 ， 如 基于 关键 字 、 基 于 相似 行为 的 用 户 进行 推荐 等 。 


由 于 本 例 采用 的 是 最 基本 的 协同 过 滤 算 法 进行 建 模 ， 因 此 得 出 的 模型 结果 也 是 初步 的 效果 ， 在 实际 应 用 的 过 程 中 要 结合 业务 进行 分 析 ， 对 模型 进一步 改造 。 首 先 需要 改造 的 是 一 般 情况 下 ， 最 热门 物品 
往往 具有 较 高 的 “相似 性 ”。 比 如 ， 热 门 的 网 址 ， 访 问 各 类 网 页 的 大 部 分 人 都 会 访问 ， 在 计算 物品 相似 度 的 过 程 中 ， 就 可 以 知道 各 类 网 页 都 和 某 些 热门 的 网 址 有 关 。 因 此 处 理 热 门 网 址 的 方法 有 : 在 计算 相 
似 度 的 过 程 中 ， 可 以 加 强 对 热门 网 址 的 惩罚 ， 降 低 其 权重 ， 如 对 相似 度 平 均 化， 或 者 对 数 化 等 方法 ; 将 推荐 结果 中 的 热门 网 址 过 滤 掉 ， 推 荐 其 他 的 网 址 ， 将 热门 网 址 以 热门 排行 榜 的 形式 进行 推荐 ， 见 表 7- 
34。 


表 7-34 婚姻 知识 类 热门 排行 榜 


网 址 内 容 Fa i CHI 
littizZ wii: scene. com infor hann Trl y720110707137693. litri 离婚 协议 书 范本 (2015 年 版 ) | — 4697 
http://www. sss. com/info/hunyin/jihuashengyu/20120215163891. html | 2015 最 新 产假 规定 574 
http://www. x, com/info/hunyin/hunyinfagui/201411053308986. html | 新 婚姻 法 2015 全 文 531 
http://www. +++, com/info/hunyin/ jiehun/hunjia/201 10920152787. html | 广州 法 定 婚 假 和 多少 天 222 
http://www. s. com/info/hunyin/ jihuashengyu/20141 1053308990. html | E A RP BEZH E 2015 211 


在 协同 过 滤 推 荐 过 程 中 ， 两 个 物品 相似 是 因为 它们 共同 出 现在 很 多 用 户 的 兴趣 列表 中 ， 也 可 以 说 是 每 个 用 户 的 兴趣 列表 都 对 物品 的 相似 度 产 生 贡 献 。 但 是 并 不 是 每 个 用 户 的 贡献 度 都 相同 。 通 常 不 活跃 
的 用 户 要 么 是 新 用 户 ， 要 么 是 只 来 过 网 站 一 两 次 的 者 用 户 。 在 实际 分 析 中 ， 一 般 认 为 新 用 户 倾 向 于 浏览 热门 物品 ， 首 先 他 们 对 网 站 还 不 熟悉 ， 只 能 点 击 首页 的 热门 物品 ， 而 老 用 户 会 逐渐 开始 浏览 冷门 的 物 
品 。 因 此 可 以 说 ， 活 跃 用 户 对 物品 相似 度 的 贡献 应 该 小 于 不 活跃 的 用 户 。 所 以 在 改进 相似 度 的 过 程 中 ， 取 用 户 活 跃 度 对 数 的 倒数 作为 分 子 ， 即 本 例 中 相似 度 的 公式 为 : 

Y | 
welt hay! logl + ACN) 


A. Ap) = 
^ É v) A, U Ay | 


然而 在 实际 应 用 中 ， 为 了 尽量 提高 推荐 的 准确 率 ， 还 会 将 基于 物品 的 相似 度 矩 阵 按 最 大 值 归 一 化 ， 其 不 仅 增 加 推荐 的 准确 度 ， 还 提高 推荐 的 履 盖 率 和 多 样 性 。 由 于 本 例 是 针对 某 一 类 数据 进行 推荐 ， 不 


存在 类 间 的 多 样 性 ， 所 以 在 此 就 不 讨论 了 。 


当然 ， 除 了 个 性 化 推荐 列表 ， 还 有 另外 一 个 重要 的 推荐 应 用 就 是 相关 推荐 列表 。 有 过 网 购 经 历 的 用 户 都 知道 ， 当 在 电子 商务 平台 上 购买 一 个 商品 时 ， 会 在 商品 信息 下 面 展 示 相 关 的 商品 。 一 种 是 包含 购 
买 了 这 个 商品 的 用 户 也 经 常 购买 的 其 他 商品 ， 另 一 种 是 包含 浏览 过 这 个 商品 的 用 户 经 常 购买 的 其 他 商品 。 这 两 种 相关 推荐 列表 的 区 别 是 : 使 用 了 不 同 用 户 行为 计算 物品 的 相似 性 。 


[1] 图 片 来 源 于 网 页 http://www.docin.com/p-613240540.html 
[2] 图 片 引 用 网 站 http://www.haodaima.net/art/2167399 中 有 关于 物品 的 协同 过 滤 推 荐 的 原理 图 


7.3 ”上 机 实验 


1. 实 验 目的 
:了解 云 协同 过 滤 推 荐 算法 的 输入 与 输出 的 数据 形式 。 


- 掌握 云 协同 过 滤 推 荐 算法 的 应 用 范围 和 解决 实际 应 用 问题 的 方法 。 


根据 本 例 的 数据 处 理 方法 ， 得 到 用 户 与 物品 (访问 网 页 ) 的 记录 ， 因 为 云 协同 过 滤 算法 只 支持 数值 型 的 数据 ， 不 支持 用 户 与 物品 为 字符 型 的 数据 ， 因 此 在 输入 数据 集 时 ， 需 要 对 其 进行 相关 数值 化 处 
理 。 


: 用 户 点 击 网 页 体现 了 用 户 对 某 些 网 页 的 关注 程度 ， 利 用 协同 过 滤 算 法 能 计算 出 与 菜 些 网 页 相似 的 网 页 的 相似 程度 ， 根 据 相 似 程 度 的 高 低 ， 将 用 户 未 点 击 过 的 并 且 有 可 能 感 兴趣 的 网 页 推荐 给 用 户 ， 实 


3. 实 验方 法 与 步骤 
登录 TipDM -HB 数据 挖掘 平台 后 ， 执 行 下 面 的 步骤 。 
(1) 数据 准备 
下 载 “02- 上 机 实验 /hunyi.txt”， 该 数据 如 表 7-24 所 示 ， 并 且 需 要 进一步 自行 处 理 数 据 ， 将 数据 数值 化 。 
(2) 创建 方案 
登录 TipDM-HB 数 据 挖掘 平台 ， 在 “方案 管理 ”页 面 选 择 “数值 预测 ”创建 一 个 新 方案 。 
方案 名 称 : 基于 云 协同 过 滤 的 网 站 智能 推荐 。 
方案 描述 : 通过 对 用 户 访问 的 网 站 进行 协同 过 滤 挖 气 ， 佑 计 出 用 户 未 点 击 的 网 页 的 评分 数 ， 推 荐 评分 高 的 网 页 。 
(3) 上 传 数据 
进入 “ 非 结 构 化 数据 管理 ”标签 页 ， 选 择 下 载 的 数据 并 上 传 (或 者 通过 FTP 上 传 ) ， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 “ 刷 新 ”按钮 刷新 数据 。 
(4) 协同 过 滤 推 荐 
选择 “系统 菜单 ”一 “ 云 算 法 ”一 “ 云 推荐 ”。 
1) 导入 数据 : 选择 文件 “电影 评分 数据 .txt” 导 入 即 可 。 
2) 参数 设置 : “推荐 个 数 ”为 5，“ 最 多 相似 项 目 ” 为 100，“ 最 小 评分 ”为 0，“ 最 大 相似 度 ” 为 10，“ 最 大 评分 ”为 1，“ 相 似 距 离 ” 为 欧 氏 距离 。 


3) 协同 过 滤 推 荐 : 对 导入 的 样本 数据 进行 协同 过 滤 挖 掘 ， 分 析 协 同 过 滤 挖 掘 过 程 中 输出 的 相关 信息 。 


1) 采用 其 他 相似 距离 计算 的 相似 度 ， 并 对 其 进行 推荐 。 


2) 如 何 改进 目前 云 协同 过 滤 算 法 只 支持 数值 型 数据 的 情况 ? 
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本 例 中 目前 主要 分 析 婚 姻 知识 类 别 与 婚姻 咨询 类 别 的 有 关 记 录 ， 其 结果 比 目 前 网 页 上 基于 关键 词 的 推荐 发 散 性 更 强 ， 达 到 互补 的 效果 。 但 由 于 公司 目前 主 营 业务 侧重 于 咨询 方面 ， 且 在 探索 分 析 的 环节 
可 以 看 出 咨询 记录 占 整个 记录 的 50% 左 右 ， 因 此 需要 进一步 改造 咨询 类 别 页 面 的 推荐 ， 其 数据 可 以 从 用 户 访问 的 原始 数据 个 提取 见 表 7-35 所 示 。 


首先 需要 解决 冷 启动 问题 ， 如 何 对 新 用 户 进行 推荐 ? 在 设计 相似 度 的 过 程 中 ， 未 考虑 到 对 热门 网 址 的 处 理 以 及 那些 无 法 得 到 推荐 结果 的 网 页 。 由 于 在 原始 数据 中 ， 每 个 网 页 都 有 一 个 标题 ， 可 以 采用 文 
本 控 所 的 分 析 方 法 ， 找 出 其 每 个 网 页 文本 中 的 隐 含 语义 ， 然 后 通过 文本 中 的 隐 合 特征 ， 将 用 户 与 物 串联 系 在 一 起 ， 相 关 的 方法 有 LSI、pLSA、LDA 和 Topic Model。 当 然 也 可 以 通过 中 文 分 词 的 方法 提取 出 关 
键 字 ， 通 过 tf-idf 方 法 对 其 关键 字 进 行 定义 权重 ， 然 后 采用 KNN 最 近邻 的 方法 求 出 那些 无 法 得 到 推荐 列表 的 结果 。 因 此 针对 本 例 的 数据 ， 可 以 采用 隐语 义 模型 实现 推荐 ， 同 样 采用 离线 的 方法 对 其 进行 测 
试 ， 然 后 对 比 各 种 推荐 方法 的 评价 指标 ， 最 后 整合 各 种 推荐 结果 。 
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本 章 主要 介绍 协同 过 滤 算法 在 电子 商务 领域 中 的 应 用 ， 实 现 对 用 户 的 个 性 化 推荐 。 通 过 对 用 户 访问 日 志 的 数据 进行 分 析 与 处 理 ， 采 用 基于 物品 的 协同 过 滤 算 法 对 处 理 好 的 数据 进行 建 模 分析 ， 最 后 通过 
模型 评价 与 结果 分 析 ， 发 现 基于 物品 的 协同 过 滤 算 法 的 优 缺 点 ， 并 对 其 缺点 提出 了 改进 的 方法 。 最 后 结合 上 机 实验 ， 帮 助 更 好 地 理解 协同 过 滤 推 荐 算法 的 原理 以 及 处 理 过 程 。 


第 8 章 ” 电 商 产 品评 论 数据 情感 分 析 


8.1 ”背景 与 挖掘 目标 


随 着 网 上 购物 越 来 越 流 行 ， 人 们 对 于 网 上 购物 的 需求 变 得 越 来 越 高 ， 这 给 京东 、 淘 宝 等 电 商 平台 提供 了 很 大 的 发 展 机 会 ， 但 是 与 此 同时 ， 这 种 需求 也 推动 了 更 多 电 商 平台 的 崛起 ， 引 发 了 激烈 的 竞争 。 
在 电 商 平台 激烈 竞争 的 大 背景 下 ， 除 了 提高 商品 质量 、 压 低 商品 价格 外 ， 了 解 更 多 消费 者 的 心声 对 于 电 商 平台 来 说 也 变 得 越 来 越 有 必要 ， 其 中 非常 重要 的 方式 就 是 对 消费 者 的 文本 评论 数据 进行 内 在 信息 的 
数据 挖掘 分 析 。 通 过 挖掘 得 到 的 这 些 信息 ， 也 会 有 利于 提升 对 应 商品 的 生产 厂家 自身 的 竞争 力 。 


本 章 对 京东 平台 上 的 热水器 评论 做 文本 挖掘 分 析 ， 本 次 数据 挖掘 建 模 目标 如 下 : 
1) 分 析 某 一 热水器 的 用 户 情感 倾向 。 
2) 从 评论 文本 中 挖掘 出 该 热水器 的 优点 与 不 足 。 


3) 提炼 不 同 品牌 热水器 的 卖点 。 


第 8 草 ” 电 商 产品 评论 数据 情感 分 析 


81 ” 育 景 与 挖掘 目标 


随 着 网 上 购物 越 来 越 流 行 ， 人 们 对 于 网 上 购物 的 需求 变 得 越 来 越 高 ， 这 给 京东 、 淘 宝 等 电 商 平台 提供 了 很 大 的 发 展 机 会 ， 但 是 与 此 同时 ， 这 种 需求 也 推动 了 更 多 电 商 平台 的 崛起 ， 引 发 了 激烈 的 竞争 。 
在 电 商 平台 激烈 竞争 的 大 背景 下 ， 除 了 提高 商品 质量 、 压 低 商品 价格 外 ， 了 解 更 多 消费 者 的 心声 对 于 电 商 平台 来 说 也 变 得 越 来 越 有 必要 ， 其 中 非常 重要 的 方式 就 是 对 消费 者 的 文本 评论 数据 进行 内 在 信息 的 
数据 挖掘 分 析 。 通 过 挖掘 得 到 的 这 些 信息 ， 也 会 有 利于 提升 对 应 商品 的 生产 厂家 自身 的 竞争 力 。 


本 章 对 京东 平台 上 的 热水器 评论 做 文本 挖掘 分 析 ， 本 次 数据 挖掘 建 模 目标 如 下 : 
1) 分 析 某 一 热水器 的 用 户 情感 倾向 。 


2) 从 评论 文本 中 挖掘 出 该 热水器 的 优点 与 不 足 。 


8.2 ”分析 万 法 与 过 程 

本 次 建 模 针对 京东 商城 上 美的 品牌 型 号 的 热水器 的 消费 者 文本 评论 数据 ， 在 对 文本 进行 基本 的 机 器 预 处 理 、 中 文 分 词 、 停 用 词 过 滤 后 ， 通 过 建立 栈 式 自 编码 深度 学 习 、 语 义 网 络 与 LDA 主 题 模型 等 多 种 
数据 挖掘 模型 ， 判 断 文本 评论 数据 的 倾向 性 以 及 挖掘 与 分 析 隐 藏 的 信息 ， 以 期 得 到 有 价值 的 内 在 信息 。 

图 8-1 为 基于 情感 分 析 、 语 义 网 络 和 主题 模型 的 评论 文本 分 析 流 程 ， 主 要 包括 以 下 步骤 : 

1) 利用 有 息 虫 工具 一 一 八 爪 鱼 采 集 器 采集 京东 商城 热水器 评论 的 数据 ; 

2) 对 获取 的 数据 进行 基本 的 处 理 操作 ， 包 括 数据 预 处 理 、 中 文 分 词 、 停 用 词 过 滤 等 ; 

3) 文本 评论 数据 经 过 处 理 后 ， 运 用 多 种 手段 对 评论 数据 进行 多 方面 的 分 析 ; 


4) 从 对 应 结果 的 分 析 中 获取 文本 评论 数据 中 有 价值 的 内 容 。 


数据 探索 与 预 处 理 
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商品 页 面 
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图 8-1 评论 文本 挖掘 流程 


8.2.1 评论 数据 采集 
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情感 倾 癌 分 析 


结果 && 反 馈 


要 分 析 电 商 平 台 热 水 器 的 评论 数据 ， 需 要 先 采 集 评论 数据 ， 对 比 多 种 网 络 聆 虫 工具 后 发 现 ， 八 爪 鱼 采 集 器 属于 “ 易 用 型 ”， 它 主要 通过 模仿 用 户 的 网 页 操作 来 采集 数据 ， 只 需 指定 数据 采集 逻辑 和 可 视 


化 选择 采集 的 数据 ， 即 可 制定 采集 规则 。 因 此， 在 本 案例 中 选择 八 爪 鱼 采 集 器 作为 网 页 数据 抓 取 工具 。 


首先 在 八 爪 鱼 采 集 器 中 新 建 任务 ， 设 置 打开 页 面 为 “http://listjd.com/list.html?cat=737%2C794%2C1706&ev=998 28702%40&page=18JL=3 产品 类 型 电热 水 器 " 


由 于 热水器 下 有 多 种 产品 ， 而 且 呈 分 页 显示 ， 所 以 抓 取 数 据 时 ， 需 要 制定 翻 页 循环 列表 ， 青 点 击 每 个 产品 ， 进 入 产品 的 详细 页 面 ， 如 图 8-3 所 示 。 


在 本 页 面 下 需要 抓 取 产品 的 名 称 、 价 格 和 评论 信息 。 评 论 信息 可 见 产品 详细 页 面 下 方 ， 如 图 8-4 所 示 ， 这 里 需要 采集 用 户 评论 、 评 论 时 间 、 购 买 信息 和 用 户 名 。 


循环 列表 ， 人 循环 抓 取 每 页 评论 信息 。 


经 过 以 上 分 析 ， 可 在 八 爪 鱼 采 集 器 设计 出 如 图 8-5 所 示 的 流程 ， 单 机 采集 后 得 到 的 结果 截图 如 图 8-6 所 示 。 
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L 页 面 如 图 8-2 所 示 。 
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图 8-5 
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万 和 (Vanward) J5Q16-BB-; Y 698.00 ‘5589 f E RABLE Hok RRA 2014-02-17 16:42 : 88-20 XÜPSCON 2013-12-28 14:54 购买 
万 和 [Vanward) SQ16-8B-; ¥ 698.00 ': 1 (t RAEk 外 观 大 所， 很 上 档次 : 2015-05-19 1318. ME : SE 6 系列 g***1 2015-05-11 17:08 购买 


万 和 (Vanward) J5Q16-BB-; X 698 00 É | 1 和 根 实用 (812) 热 水 是 很 好 ， 手 喜欢 的 。 万 : 2015-05-19 09:53 颜色 : 强 排 8 系列 j***8 2014-11-11 09:14 购买 
万 和 [Vanwardi JSQ16-88-: Y 698.00 É 1 1 1 很 实用 (812) 热 水 匡 送 策 及 时 ,快递 员 服 务 2015-05-19 0925 颜色 : SHE aS j***k ë 2015-05-13 15:47 购买 
万 和 (Vanward) JSQ16-8B-; Y698.00 5589 í 1 1 很 实用 [812) 热 水 器 质量 不 异 ,值得 推荐 2015-05-19 07:57 : BH 8 系列 Se 2015-02-17 10:11 购买 
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图 8-6 评论 采集 结 
对 采集 到 的 评论 数据 进行 处 理 ， 得 到 原始 文本 的 评论 数据 如 表 8-1 所 示 。 


表 8-1 原始 评论 文本 


G H I K 

! SIRT ES |vjPageUrlY 

京东 商城 信得过 ， 买 的 放心 ， 用 的 2014-11-2 =A (Midehttp://s. . jd. con/productpagt 
给 公司 宿 人 省 买 的 ， 上 门 安装 很 快 ，2014-11-1 美 的 Widehttp://s. . jd. con/productpag( 
美的 值得 信赖 ASE 2014-09-C f] (Midehttp://s. . jd. con/productpag( 
不 错 不 错 的 哦 ， 第 一 交 在 京东 买 这 2014-11-13 BJ Midehttp://s. . jd. con/productpag! 
很 满意 ， 水 方 一 晚上 都 还 是 热 的 早 2014-11-13 BJ Oti dehttp: //s. . jd. con/productpag( 
自己 动手 实 装 的 ， 买 材料 发 了 不 到 2014-11-28) (ti dehttp: //s. . jd. con/productpag( 
JVEOHBES— E REG « 2014-09-2 € BJ (IH dehttp: //s. . jd. con/productpag( 
还 不 错 ， 就 是 快递 有 点 慢 ， 不 打 电 2014-12-C =A) Midehttp://s. . jd. con/productpagt 
东西 很 不 错 双 十 一 抢 的 物美 价 廉 2014-11-17: f] üfi dehttp: //s. . jd. con/productpagt 
性 价 比 高 ! 下 次 还 会 会 光顾 的 ! 2014-11-1 美 的 (Midehttp://s. . jd. com/productpagr 
前 天 晚上 定货 ,第 二 天 早上 就 送 货 2014-12-(C 美 的 Midehttp://s. . jd. com/productpagt 
还 好 吧 2014-12-C =f) (Midehttp://s. . jd. con/productpagt 
应 该 值得 信任 的 品牌 。。。。。。 2014-12-CXE fJ (Midehttp://s. . jd. con/productpag( 
价格 便宜 ， 购 物 方 便 快捷 2014-11-2 =A) (Midehttp://s. . jd. con/productpage 
很 好 很 好 很 好 很 好 很 好 很 好 很 好 很 2014-712-C =A) Oi de http: //s. . jd. com/productpagt 
的 (Midea) F40-15A1 40H FBÍA22014-11-2 £8 dehttp://s. . jd. con/productpagt 
帮 有 同事 买 的 他 说 不 错 ， 运 货 到 家 1! 2014-11-22 =A) Midehttp://s. . jd. con/productpag! 
用 了 一 段 时 间 了 ， 好 用 ， 没 什么 问 2014-09-: 半 的 Widehttp:77s， . jd. con/productpag( 
怎么 这 样 ， BARA 今天 到 货 ， 2014-11-: =A) Midehttp://s. . jd. com/productpagi 
很 好 用 ， 很 方便 ! 第 — RAR T &h 2014-12- CAM) Midehttp: //s. . jd. con/productpagt 
给 4 公司 买 的 ， AEN EME 2014-11-C =A) (Midehttp://s. . jd. con/productpagi 
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ik: 数据 详 见 01- 示 例 数据 /汇总 -京东 .xlsx。 


再 抽取 品牌 为 “美的 ”的 “评论 ”一 列 ， 另 存 为 \data\meidi_jd.txt， 编 码 为 UTF-8。 


8.2.2 ”评论 预 处 理 


取 到 文本 后 ， 首 先 要 进行 文本 评论 数据 的 预 处 理 。 文 本 评论 数据 中 人 存在 大 量 价值 含量 很 低 ， 甚 至 没有 价值 含量 的 条 目 ， 如 果 将 这 些 评论 数据 也 引入 进行 分 词 、 词 频 统 计 乃 至 情感 分 析 等 ， 则 必然 会 对 分 
析 造 成 很 大 的 影响 ， 得 到 的 结果 也 必然 是 存在 问题 的 。 因 此 在 利用 这 些 文本 评论 数据 之 前 ， 必 须 先 进行 文本 预 处 理 ， 把 大 量 无 价值 含量 的 评论 去 除 。 


对 这 些 文本 评论 数据 的 预 处 理 主 要 包括 3 个 部 分 : 文本 去 重 、 机 械 语 料 压缩 以 及 短 句 删除 。 


1. 文 本 去 重 


(1) 文本 去 重 的 基本 解释 及 原因 
文本 去 重 顾名思义 ， 就 是 去 除 文 本 评论 数据 中 重复 的 部 分 。 无 论 获 取 到 什么 样 的 文本 评论 数据 ， 首 先 要 进行 的 预 处 理应 当 都 是 文本 去 重 。 文 本 去 重 的 主要 原因 如 下 : 


1) 一 些 电 商 平台 (如 国美 ) 为 了 避免 一 些 客户 长 时 间 不 评论 ， 往 往 设置 一 道 程序 ， 如 果 用 户 超过 规定 的 时 间 仍然 没有 做 出 评论 ， 系 统 会 自动 蔡 客 户 做 出 评论 ， 当 然 这 种 评论 大 多 都 会 是 好 评 。 但 是 这 类 
数据 显然 没有 任何 分 析 价 值 ， 而 且 这 种 评论 是 大 量 重 复出 现 的， 必须 去 除 。 


2) 同一 个 人 可 能 会 出 现 重复 的 评论 ， 因 为 同一 个 人 可 能 会 购买 多 种 热水器 ， 然 后 在 评论 过 程 中 可 能 为 了 省 事 ， 就 在 多 个 热水器 中 采用 同样 或 相近 的 评论 ， 这 里 当然 可 能 不 乏 有 价值 的 评论 ， 但 是 即使 有 
价值 ， 也 只 有 第 一 条 有 作用 。 


3) 由 语言 的 特点 可 知 ， 在 大 多 数 情况 下 ， 不 同人 之 间 有 价值 的 评论 都 不 会 完全 重复 ， 如 果 不 同 人 的 评论 完全 重复 ， 则 这 些 评论 一 般 都 是 毫 无 意义 的 ， 诸 如 ，“ 好 好 好 好 好 ” “xx 牌 热水器 x x Fr" 
等 等 或 者 说 就 是 直接 复制 粘贴 上 一 人 的 评论 ， 这 种 评论 显然 只 有 最 早 评论 出 的 才 有 意义 〈 即 只 有 第 一 条 有 作用 ) 。 如 果 不 是 完全 重复 ， 而 比较 相近 的 ， 也 存在 一 些 无 意义 的 评论 。 


(2) 常见 的 文本 去 重 算法 概述 及 缺陷 


在 前 人 的 研究 下 ， 许 多 文本 去 重 算法 大 多 都 是 先 计算 文本 之 间 的 相似 度 ， 再 以 此 为 基础 进行 去 重 ， 包 括 编辑 距离 去 重 、Simhash 算 法 去 重 ， 等 等 ， 但 是 大 多 存在 一 些 缺 陷 。 以 编辑 距离 算法 去 重 为 例 ， 
编辑 距离 算法 去 重 实际 上 是 先 计 算 两 条 语 料 的 编辑 距离 ， 然 后 判断 冰 值 ， 如 果 编 辑 距离 小 于 某 个 阔 值 ， 则 进行 去 除 重复 处 理 ， 这 种 方法 针对 类 似 : 


CX X PEAR KEE X X 升 大 品牌 高 质量 ” 
以 及 
“x XX 上 牌 热水器 XX 升 大 品牌 高 质量 用 起 来 真 的 不 错 ” 


的 接近 重复 而 又 无 任何 意义 的 评论 文本 的 去 除 效果 是 很 好 的 ， 主 要 为 了 去 除 接近 重复 或 完全 重复 的 评论 数据 ， 而 并 不 要 求 完全 重复 ， 当 这 种 方法 遇 到 有 意义 ， 但 有 相近 的 表达 时 可 能 也 会 采取 删除 操作 ， 这 
会 造成 错 删 问题 ， 例 如 : 


“还 没 正式 使 用 ， 不 知道 怎样 ， 但 安装 的 材料 费 确 实 有 点 高 ，380” 
以 及 
“还 没 使 用 ， 不 知道 质量 如 何 ， 但 安装 的 材料 费 确实 贵 ，380”。 


这 组 语句 的 编辑 距离 只 是 比 上 一 组 大 2 而 已 ， 但 是 很 明显 这 两 句 都 是 有 意义 的 ， 如 果 靖 值 设 为 10 (该 组 为 9) ， 就 会 带 来 错 删 问题 。 可 惜 的 是 ， 这 一 类 的 评论 数据 组 还 是 不 少 的 ， 特 别 是 差 评 的 语 料 ， 许 多 顾 
客 不 会 用 太 多 的 言语 表达 ， 直 至 中 心 ， 问 题 就 来 了 。 


(3) 文本 去 重 选用 的 方法 及 原因 


既然 这 一 类 相对 复杂 的 文本 去 重 算 法 容易 去 除 有 用 的 数据 ， 那 么 需要 考虑 一 些 相对 简单 的 文本 去 重 思路 。 由 于 相近 的 语 料 有 不 少 是 有 用 的 评论 ， 去 除 这 类 语 料 显然 不 合适 ,为 了 存留 更 多 有 用 的 语 料 ， 
就 只 能 针对 完全 重复 的 语 料 下 手 。 处 理 完全 重复 的 语 料 直 接 采 用 最 简单 的 比较 删除 法 ， 即 “两 两 对 比 ， 完 全 相同 就 去 除 ” 的 方法 。 


从 上 述 的 总 结 知道 ， 存 在 文本 重复 问题 的 条 目 归 结 到 底 只 有 1 条 语 料 甚至 0 条 语 料 是 有 用 的 ， 透 过 观察 评论 知道 存在 重复 ， 但 是 起 码 有 1 条 评论 有 用 的 语 料 ， 即 1.1 中 情况 @ 的 语 料 很 多 ， 而 运用 比较 删除 
法 显然 只 能 定 为 留 1 条 或 者 全 去 除 ， 因 此 只 能 设 为 留 1 条 ， 以 尽 可 能 存留 有 用 的 文本 评论 信息 。 
2. 机 械 压 缩 去 词 

(1) 机 械 压 缩 去 词 的 思想 


由 于 电 商 平台 的 文本 评论 数据 质量 参差 不 齐 ， 没 有 意义 的 文本 数据 很 多 ， 因 此 透 过 文本 去 重 已 经 可 以 删除 非常 多 没有 意义 的 评论 文本 。 但 是 文本 去 重 远 远 不 够 ， 经 过 文本 去 重 后 的 评论 仍然 有 很 多 评论 
需要 处 理 ， 例 如 : 


“非常 好 非常 好 非常 好 非常 好 非常 好 非常 好 非常 好 ” 
以 及 
“好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 好 呀 ”。 


这 一 类 语 料 是 存在 连续 重复 的 语 料 ， 也 是 最 常见 的 较 长 的 无 意义 语 料 。 因 为 大 多 数 给 出 无 意义 评论 的 人 都 只 是 为 了 获得 一 些 额外 奖励 等 ， 并 不 对 评论 真正 抱 有 兴趣 ， 而 他 们 为 了 省 事 就 很 可 能 进行 这 样 的 评 
i EH 
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仑 。 显 然 这 一 类 语 料 并 不 显得 就 会 重复 ， 但 是 也 是 毫 无 意义 的 ， 是 需要 删除 的 。 


= 


可 惜 的 是 ， 计 算 机 不 可 能 自动 识别 出 所 有 这 种 类 型 的 语 料 ， 比 如 ，“ 非 常 好 ”可 以 有 从 1 到 无 上 限 的 有 穷 个 的 又 加 ， 即 使 运用 词典 透 过 某 些 方式 识别 了 这 一 类 的 文本 评论 数据 ， 比 如 ， 算 出 “非常 好 ” 比 
较 多 意味 着 可 能 是 无 意义 评论 ， 一 位 制造 无 意义 评论 的 顾客 还 可 以 以 任何 一 个 词 重复 ， 还 可 以 重复 某 词 ， 但 次 数 不 一 定 多 ， 而 这 种 显然 只 需要 保留 第 一 个 即 可 ， 若 不 处 理 ， 可 能 会 影响 情感 倾向 的 判断 ， 比 
an: 


15 分 钟 就 出 热 水 了 ， 感 党 还 不 错 ， 但 是 安装 费 实 在 是 太 贵 太 责 太 贵 太 责 ” 


“15 分 钟 就 出 热 水 了 ， 感 觉 还 不 错 ,， 但 是 安装 费 实在 是 太 贵 太 贵 太 贵 ” 


是 没有 差别 的 ， 但 是 若 不 处 理 ， 就 会 出 现 差别 。 


因此 ， 需 要 对 语 料 进行 机 械 压缩 去 词 处 理 ， 也 就 是 要 去 掉 一 些 连 续 重复 累 坑 的 表达 ， 比 如 把 : 


“哈哈 哈哈 哈哈 哈哈 哈哈 哈 ” 


缩 成 
[(1 A” 
不 过 这 样 仍然 会 保留 无 意义 的 评论 ， 但 是 这 些 评论 在 经 过 这 步 处 理 后 ， 在 最 后 一 个 预 处 理 环 节 : 短 句 删除 环节 就 会 被 去 除 。 当 然 ， 机 械 压 缩 去 词法 不 能 像 分 词 那 样 识别 词语 。 


(2) 机 械 压 缩 去 词 处 理 的 语 料 结构 
机 械 压缩 去 词 实际 上 要 处 理 的 语 料 就 是 语 料 中 有 连续 累 歼 重复 的 部 分 ， 从 一 般 的 评论 偏好 角度 来 讲 ， 一 般 人 制造 无 意义 的 连续 重复 只 会 在 开头 或 者 结尾 进行 ， 例 如 : 
“为 什么 为 什么 为 什么 安装 费 这 么 贵 ， 宫 无 道理 ! ” 
以 及 
“ 真 的 很 好 好 好 好 好 好 好 好 ” 
等 等 ， 而 中 间 的 连续 重复 虽然 也 有 ， 但 是 非常 少见 (中间 重复 在 输入 上 显得 麻烦 ， 无 意义 评论 本 身 就 是 为 了 随意 了 事 ) ， 而 且 中 间 容 易 有 成 语 的 问题 ， 比 如 : 
“安装 师 侍 活 滔 不 绝 的 向 我 阅 述 这 款 热水器 有 多 好 ” 
这 种 语 料 显然 在 去 掉 一 个 “ 滔 ” 字 后 肯定 就 会 出 现 问题 ， 因 此 只 对 开头 以 及 结尾 的 连续 重复 进行 机 械 压 缩 去 词 处 理 。 
(3) 判断 机 械 压缩 去 词 处 理 过 程 的 连续 累 歼 重复 及 前 述 压 缩 规则 


连续 累 痪 重复 的 判断 可 通过 建立 两 个 存放 国际 字符 的 列表 来 完成 ， 先 放 第 一 个 列表 ， 青 放 第 二 个 列表 ， 一 个 个 读 取 国际 字符 ， 并 按照 不 同情 况 ， 将 其 放 入 带 第 一 或 第 二 个 列表 或 触发 压缩 判断 ， 若 得 出 
重复 (及 列表 1 与 列表 2 有 意义 的 部 分 完全 一 对 一 相同 ) ， 则 压缩 去 除 ， 这 样 当 然 要 有 相关 的 放置 判断 及 压缩 规则 。 在 判断 机 械 压缩 去 词 处 理 的 连续 累 歼 重复 及 设 定 压缩 规则 时 ， 必 然 要 考虑 到 词法 结构 的 问 
题 ， 综 合 文字 表达 特点 ， 设 定 如 下 7 条 规则 (说 明 : 这 里 为 了 初始 化 列表 而 放 入 的 空格 不 算 输 入 了 国际 字符 ; 由 于 批量 的 评论 中 可 能 会 存在 某 些 评论 无 法 识别 ， 因 此 在 进行 这 一 步 时 ， 需 要 结合 运行 进程 人 工 
删除 一 些 无 法 识别 语句 ) : 


规则 1: 如 果 读 入 的 字符 与 第 一 个 列表 的 第 一 个 字符 相同 ， 而 第 二 个 列表 没有 任何 放 入 的 国际 字符 ， 则 将 这 个 字符 放 入 第 二 个 列表 中 。 


解释 : 因为 一 般 情 况 下 ， 同 一 个 字 再 次 出 现时 大 多 数 都 意味 着 上 一 个 词 或 是 一 个 语 段 的 结束 以 及 下 一 个 词 或 下 一 个 语 段 的 开始 ， 例 如 : 


真 的 很 快 加 热 完 年 ， 真 的 马上 就 能 用 。 


规则 2: 如 果 读 入 的 字符 与 第 一 个 列表 的 第 一 个 字符 相同 ， 而 且 第 二 个 列表 也 有 国际 字符 ， 则 触发 压缩 判断 ， 若 得 出 重复 ， 则 进行 压缩 去 除 ， 清 空 第 二 个 列表 。 
解释 : 判断 连续 重复 最 直接 的 方法 ， 例 如 : 


重复 ! 

| | Be aud 
为 什么 为 什么 为 什么 安装 费 这 么 贵 ， 毫 无 道理 ! 
| | | | 


列表 1 列表 2 


规则 3: 如 果 读 入 的 字符 与 第 一 个 列表 的 第 一 个 字符 相同 ， 而 且 第 二 个 列表 也 有 国际 字符 ， 则 触发 压缩 判断 ， 


| 


若 得 出 不 重复 ， 则 清空 两 个 列表 ， 把 读 入 的 字符 放 入 第 一 个 列表 的 第 一 个 位 置 。 
解释 : 即 判 断 得 出 两 个 词 是 不 相同 的 ， 都 应 保留 ， 例 如 : 


不 重复 ! 
真 的 很 好 ! 真 的 很 便宜 ! 真 的 加 热 很 快 ! 
| | | | 


列表 1 列表 2 
规则 4: 如 果 读 入 的 字符 与 第 一 个 列表 的 第 一 个 字符 不 相同 ， 则 触发 压缩 判断 ， 如 果 得 出 重复 ， 且 列表 所 含 国际 字符 数目 大 于 等 于 2， 则 进行 压缩 去 除 ， 清 空 两 个 列表 ， 把 读 入 的 字符 放 入 第 一 个 列表 的 
第 一 个 位 置 。 


解释 : 用 以 去 除 如 下 情况 的 重复 ， 避 免 类 如 “滔滔 不 绝 ” 这 种 情况 的 “ 滔 ” 被 删除 ， 并 可 顺带 压缩 去 除 另 一 类 连续 重复 。 


重复 |! 


^, 
sy 


很 满意 ! 很 满意 ! 宝贝 加 热 水 的 速度 真 的 很 快 ! 
| 
列表 2 


真 的 真 的 很 好 很 好 用 | 
J Ll I- i 
规则 5: 如 果 读 入 的 字符 与 第 一 个 列表 的 第 一 个 字符 不 相同 ， 则 触发 压缩 判断 ， 若 得 出 不 重复 ， 且 第 二 个 列表 没有 放 入 国际 字符 ， 则 继续 在 第 一 个 列表 放 入 国际 字符 。 
解释 : 没有 出 现 重 复 字 就 不 会 有 连续 重复 语 料 ， 第 二 个 列表 未 启用 ， 则 继续 填 入 第 一 个 列表 ， 直 至 出 现 重 复 情 况 为 止 。 
规则 6: 如 果 读 入 的 字符 与 第 一 个 列表 的 第 一 个 字符 不 相同 ， 则 触发 压缩 判断 ， 若 得 


若 得 出 不 重复 ， 且 第 二 个 列表 已 放 入 国际 字符 ， 则 继续 在 第 二 个 列表 放 入 国际 字符 。 


可 以 ， 可 以 可 以 可 以 可 以 可 以 
可 以 ， 可 以 

好 用 好 用 好 用 好 用 ! ! ! 
好 用 | 

不 错 ， 不 错 ， 价 格 便宜 

不 错 ， 价 格 便宜 

不 错 不 错 ， 帮 人 买 的 ! 1 ! 1 
不 错 ， 帮 人 买 的 ! ! 1 1 
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图 8-7 被 压缩 的 语句 和 原 语句 对 比 
解释 : 类 似 规则 5， 此 处 省 略 叙述 。 
规则 7: 读 完 所 有 国际 字符 后 ， 触 发 压缩 判断 ， 比 较 第 一 个 列表 以 及 第 二 个 列表 有 意义 的 部 分 ， 若 得 出 重复 ， 则 进行 压缩 去 除 。 


解释 : 由 于 按照 上 述 规则 ， 在 读 完 所 有 国际 字符 后 不 会 再 触发 压缩 判断 条 件 ， 故 为 了 避免 如 下 实例 连续 重复 情况 ， 补 充 这 一 规则 。 


(4) 机 械 压 缩 去 词 处 理 的 操作 流程 


根据 上 述 规则 ， 便 可 以 完成 对 开头 连续 重复 的 处 理 。 类 似 的 规则 ， 亦 可 以 对 处 理 过 的 文本 再 进行 一 次 结尾 连续 重复 的 机 械 压缩 去 词 ， 算 法 思想 是 相近 的 ， 只 是 从 尾部 开始 读 词 罢了 。 从 结尾 开始 的 处 理 
结束 后 就 得 到 了 已 压缩 去 词 完成 的 精简 语 料 。 


输出 被 压缩 的 语句 和 原 语句 的 对 比 ， 图 8-7 截 取 了 一 部 分 前 向 机 械 压 缩 的 对 比例 子 。 
3. 短 句 删 除 
(1) 短 句 删 除 的 原因 及 思想 


完成 机 械 压 缩 去 词 处 理 后 ， 进 行 最 后 的 预 处 理 步骤 : 短 名 删除。 虽然 精简 的 辞 治 在 很 多 时 候 是 一 种 比较 良好 的 习惯 ， 但 是 由 语言 的 特点 知道 ， 从 根本 上 说 ， 字 数 越 少 ， 能 够 表达 的 意思 越 少 ， 要 想 表达 
一 些 相关 的 意思 就 一 定 要 有 相应 量 的 字数 ， 过 少 的 字数 评论 必然 是 没有 任何 意义 的 ， 比 如 三 个 字 ， 就 只 能 表达 诸如 “很 不 错 ” “质量 差 ” ， 等 等 。 为 此 ， 要 删除 过 短 的 评论 文本 数据 ， 以 去 除 没 有 意义 的 评 
i, 包括 : 


1) 原本 就 过 短 的 评论 文本 ， 如 “很 不 错 ”。 
2) 经 机 械 压 缩 去 词 处 理 后 过 短 的 评论 文本 ， 即 原本 为 存在 连续 重复 的 上 且 无 意义 的 长 文本 ， 如 “好 好 好 好 好 好 好 好 好 好 好 好 好 好 好 好 ”。 
(2) 确定 保留 的 评论 字数 的 下 限 


显然 ， 短 句 删 除 最 重要 的 环节 就 确定 保留 的 评论 字数 的 下 限 ， 这 个 没有 精确 的 标准 ， 可 以 结合 特定 语 料 来 确定 ， 一 般 4~ 8 个 国际 字符 都 是 较为 合理 的 下 限 ， 在 此 处 设 定 下 限 为 7 个 国际 字符 ， 即 经 过 前 两 
步 预 处 理 后 得 到 的 语 料 若 小 于 等 于 4 个 国际 字符 ， 则 将 该 语 料 删 去 。 


经 过 前 两 步 的 处 理 后 ， 第 三 步 ( 短 句 删除 ) 的 效果 比较 明显 ， 可 以 看 出 该 步骤 能 过 滤 掉 众多 的 垃圾 信息 。 
8.2.3 ”文本 评论 分 词 

在 中 文中 ， 只 有 字 、 句 和 段落 能 够 通过 明显 的 分 界 符 进行 简单 划 界 ， 而 对 于 “ 词 ” 和 “词组 ”来 说 ， 它 们 的 边界 模糊 ， 没 有 形式 上 的 分 界 符 。 因 此 ， 挖 扬中 文 文本 时 ， 首 先 应 对 文本 分 词 ， 即 将 连续 的 
字 序 列 按照 一 定 的 规范 重新 组 合成 词 序列 。 


分 词 结果 的 准确 性 对 后 续 文 本 挖掘 算法 有 着 不 可 忽视 的 影响 ， 如 果 分 词 效果 不 佳 ， 即 使 后 续 算 法 优秀 ， 也 无 法 实现 理想 的 效果 。 例 如 ， 人 在 特征 选择 的 过 程 中 ， 不 同 的 分 词 效果 ， 将 直接 影响 词语 在 文本 
中 的 重要 性 ， 从 而 影响 特征 的 选择 。 


本 文采 用 中 文 分 词 模块 “结巴 分 词 ”， 对 TXT 文档 中 的 商品 评论 数据 进行 中 文 分 词 。 “结巴 分 词 ” 提 供 分 词 、 词 性 标注 、 未 登录 词 识别 ， 支 持 用 户 词典 等 功能 。 经 过 相关 测试 ， 此 系统 的 分 词 精度 高 达 
97% 以 上 。 为 进一步 统计 词 频 ， 分 词 过 程 将 去 掉 词性 标注 作用 。 


8.2.4 ”构建 模型 
1 .情感 倾向 性 模型 


(1) 训练 生成 词 向 量 


首先 训练 以 得 到 词 向 量 ， 为 了 将 文本 情感 分 析 (情感 分 类 ) 转化 为 机 器 学 习 问题 ， 首 先 需 要 将 符号 数学 化 。 在 NLP 中 ， 最 常见 的 词 表示 方法 是 One-hot Representation: 将 一 个 词 映射 成 一 个 很 长 的 单 
位 向 量 ， 向 量 的 长 度 就 是 词 表 的 大 小 ， 如 “学习 ” 表 示 成 [0001000000000000http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/...] , “复习 ”表示 成 [0000000010000000http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/...] ， 这 样 就 完成 了 词语 的 数学 化 表示 。 


但 是 ， 这 样 就 存在 “词汇 鸿沟 ”的 问题 : 即使 两 个 词 之 间 存 在 明显 的 联系 ， 但 在 向 量 表示 法 中 却 体现 不 出 来 ， 无 法 反映 语义 关联 。Distributed Representation 却 能 反映 出 词语 之 间 的 距离 远近 关系 ， 
而 用 Distributed Representation 表 示 的 向 量 专门 称 为 词 向 量 ， 如 “学习 ” 可 能 被 表示 成 [0.1, 0.1, 0.1, 0.15, O2http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/...] , “复习 ”可 能 被 表示 成 [0.11, 0.12, 0.1, 0.15, 022http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/...] ， 这 样 ， 两 个 词义 相近 的 词语 被 表示 成 词 向 量 后 ， 它 们 的 距离 也 是 较 近 的 ， 词 义 关 联 不 大 的 两 个 词 的 距离 会 比较 远 。 一 般 
而 言 ， 不 同 的 训练 方法 或 语料库 训练 得 到 的 词 向 量 是 不 同 的， 它们 的 维度 常见 为 ?50 和 100 维 。 


word2vec 采 用 神经 网 络 语言 模型 NNLM 和 N-gram 语 言 模型 ， 每 个 词 都 可 以 表示 成 一 个 实数 向 量 。 模 型 如 图 8-8 所 示 。 
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图 8-8 word2vec 模 型 展示 图 


图 8-8 最 下 方 的 wt _n+1,，http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15516/OEBPS/Text/...，wt - 2，Wt - 1 就 是 前 n - 1 个 词 。 现 在 需要 
根据 这 已 知 的 n - 1 个 词 预测 下 一 个 词 Wt。C (w) 表示 词 w 对 应 的 词 向 量 ， 存 在 德 阵 C (一 个 |V|x m 的 矩阵 ) 中 。 其 中 |V| 表 示 词 表 的 大 小 ( 语 料 中 的 总 词 数 ) ，m 表 示 词 向 量 的 维度 。w 到 C (w) 的 转化 就 是 
从 矩阵 中 取出 一 行 。 


网 络 的 第 一 层 (输入 层 ) 是 将 C (wt -n+1) , http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., C (wt.2) , C (wt 
-1) XXn - 1 个 向 量 首尾 相 接 拼 起 来 ， 形 成 一 个 (n- 1) m 维 的 向 量 ， 记 为 x。 

网 络 的 第 二 层 (隐藏 层 ) 就 如 同 普通 的 神经 网 络 ， 直 接 使 用 d+ Hx 计算 得 到 。d 是 一 个 偏 置 项 。 在 此 之 后 ， 使 用 tanh 作 为 激活 函数 。 

网 络 的 第 三 层 (输出 层 ) 一 共有 |V| 个 节点 ， 每 个 节点 y 表 示 下 一 个 词 为 的 未 归 一 化 log 概 率 。 最 后 使 用 softmax 激 活 函 数 将 输出 值 y 妥 一 化 成 概率 。 最 终 ，y 的 计算 公式 为 : 

y=b+Wx+Utanh (d+Hx) 

其 中 U 是 隐藏 层 到 输出 层 的 参数 ， 整 个 模型 的 多 数 计算 集中 在 U 和 隐藏 层 的 和 矩阵 乘法 中 。 和 矩阵 W (一 个 |V|x (n- 1) m 的 矩阵 ) 包含 了 从 输入 层 到 输出 层 的 直 连 边 。 

(2) 评论 集 子 集 的 人 工 标注 与 映射 


利用 词 向 量 构建 的 结果 ， 再 人 工 标注 评论 集 子 集 ， 正 面 评论 标 为 1， 负 面 评论 标记 为 2 (或 者 采用 python 的 NLP 包 snownlp 的 sentiment 功 能 做 简单 的 机 器 标注 ， 减 少 人 为 工作 量 ) ， 然 后 将 每 条 评论 映 
射 为 一 个 向 量 ， 将 分 词 后 评论 中 所 有 词语 对 应 的 词 向 量 相 加 做 平均 ， 使 一 条 评论 对 应 一 个 向 量 。 


图 8-9 ” 自 编码 网 络 结构 示意 图 


(3) 训练 栈 式 自 编码 网 络 


自 编码 网 络 由 原始 的 BP 神经 网 络 演化 而 来 ， 在 原始 的 BP 神经 网 络 中 ， 从 特征 空间 输入 神经 网 络 中 ， 并 用 类 别 标签 与 输出 空间 来 衡量 误差 ， 用 最 优化 理论 不 断 求 得 极 小 值 ， 从 而 得 到 一 个 与 类 别 标签 相近 


的 输出 。 但 是 在 编码 网 络 并 不 是 如 此 ， 不 用 类 别 标签 来 衡量 与 输出 空间 的 误差 ， 而 是 用 从 特征 空间 的 输入 来 衡量 与 输出 空间 的 误差 。 其 结构 如 图 8-9 所 示 。 


把 特征 空间 的 向 量 (x1，x2，x3，x4) 作为 输入 ， 把 经 过 神经 网 络 训练 后 的 向 量 (xi ，*; 1512). 与 输入 向 量 047, Xo, 03, x4) 作为 衡量 误差 ， 最 终 得 到 一 个 能 从 原始 数据 中 自主 学 习 特征 的 一 个 


特征 提取 的 神经 网 络 。 从 代数 角度 而 言 ， 即 从 一 个 线性 相关 的 向 量 中 ， 寻 找 出 了 一 组 低 维 的 基 ， 而 这 组 基线 性 组 合 之 后 又 能 还 原 成 原始 数据 。 自 编码 网 络 正 是 寻找 了 一 组 这 样 的 基 。 


~ 


神经 网 络 的 出 现 ， 时 来 已 久 ， 但 是 因为 局 部 极 值 、 梯 度 弥 散 、 数 据 获取 等 问题 而 构建 不 出 深层 的 神经 网 络 ， 直 到 2007 年 深度 学 习 的 提出 ， 才 让 神经 网 络 的 相关 算法 得 到 质 的 改变 。 而 栈 式 自 编码 就 属于 


深度 学 习 理 论 中 一 种 能 够 得 到 优秀 深层 神经 网 络 的 方法 。 


栈 式 自 编码 神经 网 络 是 一 个 由 多 层 稀疏 自 编码 器 组 成 的 网 络 。 它 的 思想 是 利用 逐 层 仿 梦 训练 的 方法 ， 把 原来 多 层 的 神经 网 络 剖 分 成 一 个 个 小 的 自 编码 网 络 ， 每 次 只 训练 一 个 自 编码 器 ， 然 后 将 前 一 层 自 


THAE 


编码 的 输出 作为 其 后 一 层 自 编码 器 的 输入 ， 最 后 连接 一 个 分 类 器 ， 可 以 是 SVM、S3softMax 等 。 上 述 步骤 是 为 了 得 到 一 个 好 的 初始 化 深度 神经 网 络 的 权重 ， 连 接 好 一 个 分 类 器 后 ， 还 可 以 用 BP 神 经 网 络 的 思 


想 ， 反 向 传播 微调 神经 元 的 权重 ， 以 期 得 到 一 个 分 类 准确 率 更 好 的 栈 式 自 编码 神经 网 络 。 


完成 评论 映射 后 ， 将 标注 的 评论 划分 为 训练 集 和 测试 集 ， 利 用 标注 好 的 训练 集 (标注 值 和 向 量 ) 训练 栈 式 自 编码 网 络 (SAE) ， 对 原始 向 量 做 深度 学 习 提 取 特 征 ， 并 后 接 Softmax 分 类 器 做 分 类 ， 并 用 


测试 集 测 试 训 练 好 的 模型 的 正确 率 。 


2. 基 于 语义 网 络 的 评论 分 析 
下 面 使 用 语义 网 络 分 析 进 一 步 分 析 评 论 ， 包 括 各 产品 独 有 优势 、 各 产品 抱怨 点 以 及 顾客 购买 原因 等 ， 并 结合 以 上 分 析 对 品牌 产品 的 改进 提出 建议 。 


^ 


这 一 部 分 主要 通过 由 三 种 品牌 型 号 的 好 、 差 评 文本 数据 生成 的 语义 网 络 图 ， 结 合共 词 矩 阵 以 及 评论 定向 筛选 回 查 来 分 析 评 论 。 


图 8-10 语义 网 络 举例 示意 图 
(1) 语义 网 络 的 概念 、 结 构 与 构建 本 质 
语义 网 络 是 由 R.F.Simon 提 出 的 用 于 理解 自然 语言 并 获取 认 知 的 概念 ， 是 一 种 语言 的 概念 及 关系 的 表达 。 语 义 网 络 实际 上 就 是 一 幅 有 向 网 络 图 ， 如 图 8-10 所 示 。 


节点 中 的 物体 可 以 是 各 种 用 文字 表达 的 事物 ， 节 点 之 间 的 有 向 统 则 被 用 于 表达 节点 之 间 的 语言 意义 上 的 关系 ， 其 中 弧 的 方向 是 语言 关系 的 因果 指向 ， 比 如 ， 人 A 指向 B 意 味 着 A 与 B 有 语言 关系 牵连 ， 且 A 与 
8B 分别 是 语义 复杂 关系 的 主动 方 与 从 动 方 。 当 然 ， 这 种 用 语言 意义 上 的 关系 往往 是 复杂 的 。 以 图 8-10 为 例 ， 由 于 是 一 名 酒鬼 ， 那 么 他 或 她 就 经 常会 在 特定 情况 之 下 (诸如 朋友 聚会 、 婚 衰 等 ) 暴 饮 ; 一 个 人 
因 受 到 各 种 挫折 而 显得 翡 伤 ， 长 期 的 悲伤 无 法 释怀 ， 通 过 借 酒 消 秋 就 可 能 会 成 为 酒鬼 。 这 些 里 面 就 都 是 些 复杂 的 关系 。 


虽然 每 一 个 语义 网 络 结构 中 事物 (节点) 之 间 的 关系 是 复杂 的 ,但 是 语义 网 络 每 一 道 弧 的 形成 从 本 质 上 看 就 是 由 于 这 种 语义 关系 的 存在 。 不 同 的 用 词语 表达 的 特定 事物 之 间 就 是 因为 存在 干 丝 万 缕 的 联 
系 ， 才 会 形成 一 个 个 的 语义 网 络 。 


(2) 基于 语义 网 络 进行 评论 分 析 的 优势 


从 前 面 的 论述 当中 知道 ， 要 想 对 中 文 的 热水器 评论 进行 合理 的 分 析 必 须 采 取 的 一 项 措施 是 分 词 ， 因 为 计算 机 不 可 能 像 人 一 样 识别 每 一 个 整 句 的 语义 ， 不 能 直接 识别 语句 的 整体 结构 思想 ， 但 是 分 词 又 会 
使 得 语句 的 整体 结构 变 得 凌乱 ， 从 而 对 分 词 后 的 语句 直接 进行 诸如 产品 差异 等 复杂 的 分 析 变 得 不 合 实际 ， 所 以 必须 采取 方法 尽 可 能 将 这 种 原 已 凌乱 的 关系 重新 整合 起 来 ， 使 复杂 的 分 析 重 新 变 为 可 能 。 建 立 
起 事物 之 间 (这 里 分 出 的 每 一 个 词 料 代 表 一 项 事物 ) 的 语义 网 络 关系 就 能 够 使 原 已 凌乱 的 关系 得 以 整合 ， 特 别 是 那些 可 以 连 成 通顺 语 料 的 词语 的 关系 ( 即 连接 “因果 ”关系 ) 的 重新 整合 ， 而 这 种 关系 的 成 
功 重 建 能 够 清晰 地 还 原 语 料 中 反映 出 来 的 许多 内 容 ， 特 别 是 单独 的 词语 无 法 清晰 表达 相应 的 情况 时 ， 比 如 : “安装 ”与 “方便 ”分 开 时 ， 任 何 一 方 都 不 能 清晰 表达 相关 的 情况 ， 单 独 一 个 “安装 ”可 以 表达 
很 多 的 东西 ， 可 以 是 “安装 很 容易 ”， 也 可 以 是 “有 师傅 上 门 帮忙 安装 ”， 还 可 以 是 “安装 要 收 手续 费 ”， 等 等 。 单 独 一 个 “方便 ”也 可 以 表达 很 多 的 东西 ， 可 以 是 “使 用 十 分 方便 。， 也 可 以 是 “商品 签 
收 方便 快捷 ”， 还 可 以 是 “ 交 款 方式 方便 简易 ”， 等 等 ， 但 是 如 果 “安装 ”和 “方便 ”通过 语义 网 络 方式 连接 起 来 ， 如 图 8-11 所 示 ， 就 可 以 清晰 地 反映 出 是 相关 热水器 产品 在 安装 时 比较 便利 。 再 比 
如 ，“ 热 水 ”与 “不 足 ” 也 是 这 样 的 情况 ， 此 处 不 再 袭 述 。 


图 8-11 “安装 ”和 “方便 ”的 语义 网 络 连接 示意 图 


当 这 种 语义 网 络 建立 起 来 后 ， 可 以 借助 它 分 析 各 种 各 样 的 特定 ， 特 别 是 在 判断 特定 产品 优点 、 抽 取 各 品牌 的 顾客 关注 点 等 上 都 具有 一 定 的 优势 。 以 判断 特定 产品 优点 为 例 ， 如 果 某 种 产品 相对 于 其 他 产 
品 具有 某 种 特定 的 优势 ， 那 么 由 该 种 商品 的 正面 评论 形成 的 语义 网 络 上 就 会 生成 与 其 他 产品 正面 评论 形成 的 语义 网 络 不 同 的 且 蕴 含 这 种 优势 的 关系 连接 ， 透 过 可 视 化 ， 就 能 够 从 中 抽取 出 来 。 


(3) 基于 语义 网 络 进行 评论 分 析 的 前 期 步骤 与 解释 


进行 语义 网 络 分 析 所 需 的 前 期 步骤 实际 上 就 是 二 分 类 文本 情感 分 析 ， 语 义 网 络 分 析 要 以 二 分 类 文本 情感 分 析 的 结果 为 基础 的 原因 在 于 评论 是 正面 的 和 负面 的 大 多 都 会 具有 不 同 的 语意 结构 ， 且 对 于 同一 
商品 而 言 ， 正 面 和 负面 的 评论 必然 从 根本 上 关注 的 点 和 信息 是 不 完全 相同 的 ， 毕 竟 正 面 和 负面 评论 之 间 存 在 逻辑 冲突 。 而 这 种 正面 、 负 面 评 论 的 分 割 需要 用 到 情感 分 析 技 术 。 有 具体 前 期 步骤 如 下 : 


1) 数据 预 处 理 ， 分 词 以 及 对 停 用 词 的 过 滤 ， 
2) 进行 情感 倾向 性 分 析 ， 并 借助 此 将 评论 数据 分 割 成 正面 (好 评 ) 、 负 面 ( 差 评 ) 、 中 性 (中 评 ) 三 大 组 ; 


3) 抽取 正面 AF). AE ( 差 评 ) 两 组 ， 以 构建 与 分 析 语义 网 络 。 


第 一 步 可 以 直接 按照 原 有 的 流程 来 进行 ， 第 三 步 只 需要 在 第 二 步 分 成 的 三 组 结果 中 抽取 即 可 ， 不 对 中 性 评论 进行 分 析 是 因为 中 性 评论 往往 携带 着 比较 复杂 的 信息 ， 难 以 对 细节 进行 倾向 性 提取 。 


第 二 步 的 情感 倾向 性 分 析 并 将 评论 数据 分 类 可 以 在 原 有 的 情感 分 析 工 作 基础 上 修改 来 完成 ， 但 是 在 此 处 使 用 ROSTCM 6 (ROSTCM 6 的 全 称 为 ROST Content Mining System (Version 6.0) ) 来 完成 
该 项 操作 。ROST 系 统 是 由 武汉 大 学 开发 的 一 款 免费 反 录 窃 系统， 可 用 于 检测 论文 抄袭 的 现象 ，ROST 系 统 还 是 一 款 大 型 的 免费 用 于 社会 计算 的 软件 ， 可 以 用 来 实现 多 种 类 型 的 分 析 ， 包 括 情 感 民 向 性 分 析 以 
及 后 面 将 要 进行 的 语义 网 络 构建 等 。 之 所 以 使 用 ROSTCM 6 来 完成 情感 分 析 是 因为 ROSTCM 6 软件 的 情感 倾向 性 分 析 使 用 的 是 基于 优化 的 情感 词典 方法 ， 其 准确 率 目前 来 讲 会 比 基 于 词 向 量 和 神经 网 络 的 情 


感 分 析 方 法 高 ， 而 前 述 用 于 情感 倾向 性 分 析 的 方法 是 基于 词 向 量 和 神经 网 络 的 。 另 外 ， 受 限于 现今 中 文 分 词 技术 的 缺陷 以 及 评论 本 身 的 特性 ， 能 够 透 过 中 文 评论 挖掘 出 来 的 内 容 还 是 偏 少 的 ， 因 此 对 情感 倾 
向 性 分 析 的 正确 率 要 求 就 更 高 。 当 需要 以 此 为 基础 进一步 分 析 时 ， 就 需要 利用 基于 情感 词典 的 方法 。 第 二 步 的 具体 流程 如 下 : 


单 击 “ 功 能 性 分 析 ”， 再 单 击 “ 情 感 分 析 ” ， 然 后 将 待 分 析 的 文件 地 址 输入 “ 待 分 析 文 件 路 径 ”对 应 框 内 ， 单 击 “ 分 析 ” 选 项 ， 得 到 情感 倾向 性 分 析 的 结果 ，3 种 情感 倾向 被 放 入 三 个 不 同 的 txt 文 件 
内 。 
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图 8-12 ROSTCM 6 实现 情感 倾向 性 分 析 的 步骤 示意 图 
这 三 步 完 成 后 ， 便 可 以 开始 分 析 语 义 网 络 。 
(4) 基于 语义 网 络 进行 评论 分 析 的 实现 过 程 


要 进行 语义 网 络 分 析 ， 首 先 要 分 别 对 两 大 组 重新 进行 分 词 处 理 ， 并 提取 出 高 频 词 (为 了 实现 更 好 的 分 词 效果 ， 在 分 词 词典 中 引入 更 多 的 词汇 ) 。 因 为 只 有 高 频 词 之 间 的 语义 联系 才 是 真正 有 意义 的 ， 个 
性 化 词语 间 的 关系 不 具 代 表 性 。 然 后 在 此 基础 上 过 渡 掉 明显 无 意义 的 成 分 ,减少 分 析 干 扰 。 最 后 抽取 行 特征 ， 人 处理 完 后 便 可 构建 两 组 的 语义 网 络 。 


同时 亦 利 用 ROSTCM 6 来 完成 这 一 部 分 及 构建 语义 网 络 的 操作 。 打 开 ROSTCM 6 软件 ， 单 击 “ 功 能 性 分 析 ” 选 项 ， 再 单 击 “ 社 会 网 络 与 语义 网 络 分 析 ” ， 打 开 社 会 网 络 与 语义 网 络 分 析 的 界面 ， 如 图 8- 
13 所 示 。 


将 分 好 的 好 差 评 两 个 文本 文档 中 的 好 评 文 档 的 地 址 输入 “ 待 处 理 文件 ”对 应 框 内 ， 并 单 击 “ 提 取 高 频 词 ” “过 滤 无 意义 词 ”以 及 “提取 行 特征 ”， 完 成 对 应 的 操作 ， 系 统 自动 生成 对 应 处 理 后 的 文件 。 
在 此 之 后 ， 依 次 单 击 “构建 网 络 ” 与 “启动 NetDraw” ， 得 到 好 评 文 档 的 语义 网 络 图 (其 生成 的 语义 网 络 图 可 能 不 便于 观察 ， 可 以 移动 NetDraw 生 成 的 语义 网 络 结果 中 的 节点 ， 以 增强 该 网 络 的 可 读 性 ) ， 
为 了 方便 分 析 ， 单 击 “ 构 建 德 阵 ”， 人 生成 被 挑选 出 的 节点 词 的 矩阵 词 表 ， 该 操作 会 生成 一 个 xls 文 件 。 构 建 好 评 文 档 的 语义 网 络 图 后 ， 对 差 评 文档 进行 同样 的 操作 ， 也 将 得 到 相应 的 语义 网 络 图 。3 种 品牌 3 种 
型 号 对 应 6 个 好 评 文 档 及 差 评 文 档 ， 从 而 生成 6 个 语义 网 络 图 ， 并 以 此 为 基础 ， 结 合共 词 和 矩阵 〈 可 在 语义 网 络 生 成 后 单 击 “ 构 建 德 阵 ” 形 成 ) 与 评论 定向 筛选 回 查 ， 便 可 分 析 相 天 评论 。 


3. 基 于 LDA 模 型 的 主题 分 析 
对 基于 语义 网 络 的 评论 进行 初步 数据 分 析 后 ， 从 统计 学 习 的 角度 ， 对 主题 特征 词 出 现 的 频率 进行 量化 表示 。 本 文 运用 LDA 主 题 模 型 挖掘 3 种 品牌 评论 中 更 多 的 信息 


主题 模型 在 机 器 学 习 和 自然 语言 处 理 等 领域 用 来 在 一 系列 文档 中 发 现 抽象 主题 的 一 种 统计 模型 。 从 直观 上 说 ， 传 统 判断 两 个 文档 相似 性 的 方法 是 查看 两 个 文档 共同 出 现 的 单词 的 多 少 ， 如 TF、TF-IDF 
， 这 种 方法 没有 考虑 到 文字 背后 的 语义 关联 ， 可 能 两 个 文档 共同 出 现 的 单词 很 少 甚至 没 有， 但 两 个 文档 是 相似 的 ， 因 此 在 判断 文档 相似 性 时 ， 应 进行 语义 挖掘 ， 而 语义 挖掘 的 有 效 工 具 即 为 主题 模型 


dt 


如 果 一 篇 文档 有 多 个 主题 ， 则 一 些 特定 的 可 代表 不 同 主题 的 词语 会 反复 出 现 ， 此 时 ， 运 用 主题 模型 ， 能 够 发 现 文 本 中 使 用 词语 的 规律 ， 并 把 规律 相似 的 文本 联系 到 一 起 ， 以 寻求 非 结构 化 的 文本 集中 的 
有 用 人 信息。 例如， 对 于 热水器 的 商品 评论 ， 代 表 热 水 器 特征 的 词语 如 “安装 ”“ 出 水 量 ” “服务 ”等 会 频繁 地 出 现在 评论 中 ， 运 用 主题 模型 ， 将 与 热水器 代表 性 特征 相关 的 情感 描述 性 词语 ， 同 相应 的 特征 
词语 联系 起 来 ， 从 而 深入 了 解 热 水 器 评价 的 聚焦 点 及 用 户 对 于 某 一 特征 的 情感 倾向 。LDA 模 型 作为 其 中 一 种 主题 模型 ， 属 于 无 监督 的 生成 式 主题 概率 模型 。 
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图 8-13  ROSTCM 6 实现 语义 网 络 构建 的 步骤 示意 图 


(1) LDA 主 题 模型 


潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) 是 由 Blei 等 人 在 2003 年 提出 的 生成 式 主题 模型 。 生 成 模型 ， 即 认为 每 一 篇 文档 的 每 一 个 词 都 是 通过 “一 定 的 概率 选择 了 某 个 主题 ， 并 从 这 个 主 
题 中 以 一 定 的 概率 选择 了 某 个 词语 ”。LDA 模 型 也 被 称 为 三 层 贝 叶 斯 概率 模型 ， 包 含 文档 (d) 、 主 题 (z) 、 词 (w) 三 层 结构 ， 能 够 有 效 对 文本 进行 建 模 ， 和 传统 的 空间 向 量 模型 (VSM) 相 比 ， 增 加 了 
概率 的 信息 。 通 过 LDA 主 题 模 型 ， 能 够 挖掘 数据 集中 的 潜在 主题 ， 进 而 分 析 数 据 集 的 集中 关注 点 及 其 相关 特征 词 。 


LDA 模 型 采用 词 袋 模型 (Bag Of Words, BOW) 将 每 一 篇 文档 视 为 一 个 词 频 向 量 ， 从 而 将 文本 信息 转化 为 易于 建 模 的 数字 信息 。 


p 


z ~ Multi (0) 


a E 
$ 


日 ~ Dir (a) w ~ Multi (o ) 


M 


图 8-14 LDA 模 型 结构 示意 图 


定义 词 表 大 小 为 L， 一 个 L 维 向 量 (1, 0, 0, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., 0, 0) 表示 一 个 词 。 
由 N 个 词 构成 的 评论 记 为 d= (w4, wo, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., ww) 。 假 设 某 一 商品 的 评论 集 


D 由 M 篇 评论 构成 ， 记 为 D= (d1, do, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., dM) 。M 篇 评论 分 布 着 K 个 主 


题 ， 记 为 zij (i=1, 2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15516/OEBPS/Text/..., K) 。 记 ca 入 为 狄 利克 雷 函 数 的 先 验 参数 ，6 为 主 


题 在 文档 中 的 多 项 分 布 的 参数 ， 其 服从 超 参数 为 的 Dirichlet 先 验 分 布 ， 中 为 词 在 主题 中 的 多 项 分 布 的 参数 ， 其 服从 超 参数 B 的 Dirichlet 先 验 分 布 。LDA 模 型 图 示 如 图 8-14 所 示 。 


LDA 模 型 假定 每 篇 评论 由 各 个 主题 按 一 定 比例 随机 混合 而 成 ， 混 合 比例 服从 多 项 分 布 ， 记 为 : 
Z |0-Multinomial (0) 

而 每 个 主题 由 词汇 表 中 的 各 个 词语 按 一 定 比例 混合 而 成 ， 混 合 比例 也 服从 多 项 分 布 ， 记 为 : 
WIZ, =Multinomial (i) 

在 评论 dj 条 件 下 生成 词 wj 的 概率 表示 为 : 


P(w, | d.) = by P( w, lz = s) xP(z=s| d.) 


$m] 
Eh, P (wilz=s) 表示 词 wi 属 于 第 s 个 主题 的 概率 ，P (z-s|dj) 表示 第 s 个 主题 在 评论 dj 中 的 概率 。 
(2) LDA 主 题 模型 估计 


LDA 模 型 对 参数 9、q 的 近似 估计 通常 使 用 马尔 科 夫 链 蒙 特 卡 洛 (Markov Chain Monte Carlo, MCMC) 算法 中 的 一 个 特例 Gibbs 抽 样 。 利 用 Gibbs 抽 样 对 LDA 模 型 进行 参数 估计 ， 依 据 下 式 ,: 


| 
PCa, = s |Z, W) œ (n,a +B) (Yn. +B) x(n, ta) 
iz] 


其 中 ，zi=s| 表 示 词 wi 属于 第 s| 个 主题 的 概率 ，Z . 表示 其 他 所 有 词 的 概率 ，ns，- 素 示 不 包含 当前 词 wi 的 被 分 配 到 当前 主题 zs 下 的 个 数 ，ns，- 表示 不 包含 当前 文档 dj 的 被 分 配 到 当前 主题 zs 下 的 个 数 。 


通过 对 上 式 的 推导 ， 可 以 得 到 词 w 在 主题 zs 中 分 布 的 参数 估计 中 s，i， 主 题 zs 在 评论 dj 中 的 多 项 分 布 的 参数 估计 6j，s: 


$,; = (n,; * B, )/ | y n. + B, | 


pa] 
K 


0, . EG n.. ta, )/ | > hs qx | 


je 
其 中 ，ns ， 读 示 词 w 在 主题 zs 中 出 现 的 次 数 ， nj, s 表 示 文 档 dj 中 包含 主题 zs 的 个 数 。 


LDA 主 题 模型 在 文本 聚 类 、 主 题 挖 气 、 相 似 度 计算 等 方面 都 有 广泛 的 应 用 ， 相 对 于 其 他 主题 模型 ， 其 引入 了 狄 利克 雷 先 验 知识 ， 因 此 ， 模 型 的 泛 化 能 力 较 强 ， 不 易 出 现 过 拟 合 现象 。 其 次 ， 它 是 一 种 无 
监督 的 模式 ， 只 需要 提供 训练 文 要 ， 就 可 以 自动 训练 出 各 种 概率 ， 无 需 任何 人 工 标注 过 程 ， 节 省 大 量 人 力 及 时 间 。 再 者 ，LDA 主 题 模型 可 以 解决 多 种 指 代 问 题 。 例 如 ， 在 热水器 的 评论 中 ， 根 据 分 词 的 一 般 
规则 ， 经 过 分 词 的 语句 会 将 “费用 ”一 词 单 独 分 割 出 来 ， 而 “费用 ”是 指 安装 费用 ， 还 是 热水器 费用 等 其 他 情况 ， 如 果 简 单 地 进行 词 频 统 计 及 情感 分 析 ， 是 无 法 识别 的 ， 从 而 也 无 法 准确 了 解 用 户 反映 的 情 
况 。 运 用 LDA 主 题 模型 ， 可 以 求 得 词汇 在 主题 中 的 概率 分 布 ， 进 而 判断 “费用 ”一 词 属于 哪个 主题 ， 并 求 得 属于 这 一 主题 的 概率 和 同一 主题 下 的 其 他 特征 词 ， 从 而 解决 多 种 指 代 问 题 。 


(3) 运用 LDA 模 型 进行 主题 分 析 的 实现 过 程 
在 本 文 商品 评论 关注 点 的 研究 中 ， 即 对 评论 中 的 潜在 主题 进行 挖掘 ， 评 论 中 的 特征 词 是 模型 中 的 可 观测 变量 。 一 般 来 说 ， 每 则 评论 中 都 存在 一 个 中 心思 想 ， 即 主题 。 如 果 某 个 潜在 主题 同时 是 多 则 评论 
中 的 主题 ， 则 这 一 潜在 主题 很 可 能 是 整个 评论 语 料 集 的 热门 关注 点 。 在 这 个 潜在 主题 上 越 高 频 的 特征 词 ， 越 有 可 能 成 为 热门 关注 点 中 的 评论 词 。 


首先 ， 为 提高 主题 分 析 在 不 同情 感 倾 向 下 ， 热 门 关注 点 反映 情况 的 精确 度 ， 本 文 在 语义 网 络 的 情感 分 类 结果 的 基础 上 ， 对 不 同情 感 倾向 下 的 潜在 主题 分 别 进行 挖掘 分 析 ， 从 而 得 到 不 同情 感 倾 向 下 ， 用 
户 对 热水器 不 同方 面 的 反映 情况 。 例 如 ， 选 取 差 评 中 的 一 则 评论 “售后 服务 差 极 了 ， 不 有 买 他 们 的 材料 不 给 安装 ， 还 说 称 免费 安装 ， 其 实 要 收 挺 贵 的 安装 费 ， 十 分 不 合理 。 这 也 算 了 ， 安 装 费 之 前 说 二 百 ， 安 
好 之 后 要 四 百 ， 更 贵 了 ， 更 加 不 合理 ， 不 管 是 安装 师 传 自己 还 是 美的 规定 ， 都 是 很 差 很 差 的 体验 ， 我 看 其 他 人 的 了 ， 一 样 的 安装 ， 比 别人 贵 的 安装 费 。 而 且 安 装 师傅 做 事 粗糙 ， 态 度 粗鲁 。” 在 这 则 评论 
中 ，“ 安 装 费 ”和 “安装 师傅 ”在 这 则 评论 中 出 现 频 率 较 高 ， 可 作为 潜在 主题 。 同 时 ， 可 以 得 到 潜在 主题 上 特征 词 的 概率 分 布 情况 ， 反 了 映 潜 在 主题 “安装 费 ” 的 特征 词 包括 “ 贵 ”“ 不 合理 ”， 反 映 “ 安 装 
师傅 ”的 特征 词 包括 “粗糙 ” “粗鲁 ”。 


接着 ,分 别 统计 整个 评论 语料库 中 正 负 情 感 倾 向 的 主题 分 布 情况 ， 对 两 种 情感 和 倾 向 下 ， 各 个 主题 出 现 的 次 数 从 高 到 低 排 序 ， 根 据 分 析 需 要 ， 选 择 排 在 前 若干 位 的 主题 作为 评论 集中 的 热门 关注 点 ， 然 后 
根据 潜在 主题 上 的 特征 词 的 概率 分 布 情况 ， 得 到 对 应 的 热门 关注 点 的 评论 词 。 


本 节 运 用 LDA 主 题 模型 的 算法 ， 并 采用 Gibbs 抽 样 方法 对 LDA 模 型 的 参数 进行 近似 估计 ， 由 上 文 的 模型 介绍 可 知 ， 模 型 中 存在 3 个 可 变量 需要 确定 最 佳 取 值 ， 分 别 是 狄 利克 雷 函 数 的 先 验 参 数 c 和 B、 主 题 
个 数 K。 本 文中 将 狄 利克 雷 函数 的 先 验 参数 a 和 B 设 置 为 经 验 值 ， 分 别 是 a=50/K，B=0.1。 而 主题 个 数 K 采 用 统计 语言 模型 中 常用 的 评价 标准 困惑 度 来 选取 ， 即 令 K=50。 


(4) LDA 模 型 的 实现 


虽然 LDA 可 以 直接 对 文本 进行 主题 分 析 ， 但 是 文本 的 正面 评价 和 负面 评价 混淆 在 一 起 ， 并 且 由 于 分 词 粒 度 的 影响 (否定 词 或 程度 词 等 ) ， 可 能 在 一 个 主题 下 生成 一 些 令 人 迷惑 的 词语 。 因 此 ， 将 文本 分 
为 正面 评价 和 负面 评价 两 个 文本 ， 再 分 别 进行 LDA 主 题 分 析 是 一 个 比较 好 的 主意 。 

为 将 文本 一 分 为 二 ， 可 以 手工 分 类 ， 但 是 极 耗 精力 和 时 间 。 为 此 ， 可 以 进行 机 器 标注 。 这 里 采用 COSTCM 6 中 的 情感 分 析 进 行 机 器 分 类 ， 生 成 “正面 情感 结果 ” “负面 情感 结果 ”和 “中 性 情感 结 
果 ”， 这 里 抛弃 “中 性 情感 结果 ”文本 ,分别 对 “正面 情感 结果 ”和 “负面 情感 结果 ”文本 进行 LDA 分 析 ， 挖 气 出 商品 的 优点 与 不 足 。 


图 8-15 是 对 meidi_jd_process_end.txt 处 理 后 得 到 的 负面 评价 文本 ， 由 于 COSTCM 6 得 到 的 结果 还 有 评分 前 缀 ， 所 以 需要 删除 前 缀 的 评分 ， 并 且 分 类 文本 是 unicode 编 码 ， 统 一 另存 为 UTF-8 编 码 再 删 
除 评 分 。 


=] 还 行 吧 安装 有 点 小 贵 

-6 PAK ae (REF A (BSCR RE | i 
i-s 安 浪 费 超 员 无 比 一 副 挂 件 150 元 f818]367L—- 1 我 说 我 目 己 有 BRIT 
&ldquo; 你 的 不 好 质量 不 好 我 去 REN ILM &rdquo; 最 可 气 的 是 AREE 
有 个 装饰 盖 竟然 男 收 费 12 元 一 个 结果 按照 师傅 的 &ldquo ;满意 度 &rdquo; 装 完 后 HZ 
H Bde. J 327 元 &mdash:;&mdash:; 半 个 热 水 问 安装 挺 坑 人 的 


图 8-15 ”负面 评价 文本 


在 分 好 词 的 正面 评价 文件 、 负 面 评价 文件 以 及 停 用 词 表 (过 滤 用 ) 的 基础 上 ， 得 到 处 理 好 的 正面 评价 和 负面 评价 数据 。 
利用 TipDM-HB 数 据 挖 掘 平 台 的 LDA 主 题 分 析 算 法 对 正面 评价 和 负面 评价 进行 主题 分 析 。 


先 对 正面 评价 进行 分 析 ， 登 录 TipDM-HB 数 据 挖 气 平 台 后 ， 新 建 方案 ， 接 着 导入 数据 。 导 入 的 数据 为 “01- 示 例 数据 /正面 评价 数据 .csv” ， 数 据 加 载 完 成 后 ， 刷 新 即 可 看 到 数据 (注意 : 此 数据 比较 
大 ， 加 载 需 要 较 长 时 间 ) 。 调 用 TipDM-HB 数 据 挖掘 平台 的 LDA 主 题 分析 算 法 时 ， 导 入 的 数据 列 属性 为 “评价 ”， 参 数 设 置 为 : “主题 数 ” 为 3，“ 算 法 ”为 Gibbs，“ 每 个 主题 下 词语 数 ”为 10。 


经 过 LDA 主 题 分 析 后 ， 正 面 评 价 文本 被 聚 成 3 个 主题 ， 每 个 主题 下 生成 10 个 最 有 可 能 出 现 的 词语 ， 美 的 正面 评价 文本 中 的 潜在 主题 如 表 8-2 所 示 。 


表 8-2 ”美的 正面 评价 潜在 主题 


主题 1 主题 2 主题 3 
很 好 ^i D: 
ik EE 的 ig 

th 东西 师 传 
PLE VS Avis Hu 


好 BUR Xm 


- 
>’ 


加 热 美的 的 
速度 价格 元 
很 快 感觉 没有 
服务 很 不 错 售后 
非常 值得 T4] 
同 理 ， 导 入 “01- 示 例 数 据 /负面 评价 数据 ,csw” 数 据 ， 按 同样 的 参数 设置 ， 即 可 得 到 美的 负面 评价 文本 中 的 潜在 主题 ， 见 表 8-3。 
表 8-3 ”美的 负面 评价 潜在 主题 
De LAE p 
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不 好 更 
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r| 
> | fil 


553 
bi xm 
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bx 


根据 提取 到 的 美的 热水器 好 评 的 3 个 潜在 主题 的 特征 词 可知 ， 主 题 1 中 的 高 频 特 征 词 ， 即 很 好 、 送 货 快 、 加 热 、 速 度 、 很 快 、 服 务 、 非 常 等 ， 主 要 反映 京东 送 货 快 、 服 务 非常 好 ; 美的 热水器 加 热 速度 
快 ;主题 2 中 的 高 频 特征 词 ， 即 热门 关注 点 主要 是 价格 、 东 西 、 值 得 等 ， 主 要 反映 美的 热水器 不 错 ， 价 格 合适 值得 购买 等 ， 主 题 3 中 的 高 频 特征 词 ， 即 热门 关注 点 主要 是 售后 、 师 傅 、 上 门 、 安 装 等 ， 主 要 反 
映 京东 的 售后 服务 以 及 师傅 上 门 安装 等 。 


从 美的 热水器 差 评 的 3 个 潜在 主题 中 ， 可 以 看 出 ， 主 题 1 中 的 高 频 特 征 词 主要 是 安装 、 服 务 、 元 等 ， 即 主题 1 主要 反映 的 是 美的 热水器 安装 收费 高 、 热 水 器 售后 服务 不 好 等 ; 主题 2 中 的 高 频 特 征 词 主要 是 
不 过 、 有 点 、 还 可 以 等 情感 词汇 ， 主 题 3 主 要 反映 的 是 美的 热水器 可 能 不 满足 其 需求 等 ;主题 3 中 的 高 频 特 征 词 主要 是 没有 、 但 是 、 自 己 等 ， 主 题 3 可 能 主要 反映 美的 热水器 自己 安装 等 。 


综合 以 上 对 主题 及 其 中 的 高 频 特 征 词 可 以 看 出 ， 美 的 热水器 的 优势 有 以 下 几 个 方面 : 价格 实惠 、 性 价 比 高 、 外 观 好 看 、 热 水 器 实用 、 使 用 起 来 方便 、 加 热 速度 快 、 服 务 好 。 
相对 而 言 ， 用 户 对 美的 热水器 的 抱怨 点 主要 体现 以 下 几 个 方面 : 美的 热水器 安装 费 贵 及 售后 服务 差 等 。 

因此 ， 用 户 的 购买 原因 可 以 总 结 为 以 下 几 个 方面 : 美的 大 品牌 值得 信赖 ， 美 的 热水器 价格 实惠 ， 性 价 比 高 。 

根据 对 京东 平台 上 ， 美 的 热水器 的 用 户 评价 情况 进行 LDA 主 题 模型 分 析 ， 对 美的 品牌 提出 以 下 建议 : 

1) 在 保持 热水器 使 用 方便 、 价 格 实惠 等 优点 基础 上 ， 对 热水器 进行 改进 ， 从 整体 上 提升 热水器 的 质量 。 


2) 提升 安装 人 员 及 客服 人 员 的 整体 素质 ， 提 高 服务 质量 。 制 定安 装 费用 收取 明文 细则 ， 并 公开 透明 ， 减 少 安装 过 程 的 乱 收 费 问 题 。 适 度 降低 安装 费用 和 材料 费用 ， 以 此 在 大 品牌 的 竞争 中 凸显 优势 。 


8.3 ”上 机 实验 


1. 实 验 目 的 
.加深 对 LDA 主 题 分 析 算 法 原理 的 理解 及 使 用 。 


` 掌握 使 用 LDA 主 题 分 析 工 法 解决 实际 问题 的 方法 。 


. 导入 处 理 好 的 正面 评价 数据 ， 进 行 LDA 主 题 分 析 ， 分 析 正 面 评价 的 主题 内 容 。 
3. 实 验方 法 与 步骤 

登录 TipDM-HB 数 据 挖掘 平台 后 ， 执 行 以 下 步骤 。 

(1) 数据 准备 

下 载 “02- 上 机 实验 /正面 评价 数据 .csv”。 

(2) 创建 方案 

登录 TipDM-HB 数 据 挖 握 平 台 ， 在 “方案 管理 ”页 面 选 择 “LDA 主 题 分 析 ” 创 建 一 个 新 方案 。 

方案 名 称 : 基于 LDA 模 型 的 主题 分 析 。 

方案 描述 : 通过 对 正面 评价 数据 进行 LDA 主 题 分 析 ， 分 析 正 面 评 价 的 主题 内 容 ， 了 解 美的 热水器 的 优势 所 在 。 
(3) 上 传 数据 

进入 “数据 管理 ”标签 页 ， 选 择 下 载 的 数据 并 上 传 ， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 “刷新 ”按钮 刷新 数据 。 
(4) LDA 主 题 分 析 
选择 “系统 菜单 ”一 “LDA 主 题 分 析 ”。 


1 


~~ 


导入 数据 : 选择 “正面 评价 数据 .csv” 文 件 ， 选 择 “ 评 价 ” 属 性 列 ， 点 击 “ 导 入 数据 ”按钮 。 
2) 参数 设置 : “主题 数 ”为 3，“ 算 法 ”为 Gibbs，“ 每 个 主题 下 词语 数 ” 为 10。 


3) LDA 主 题 分 析 : 对 导入 的 样本 数据 进行 LDA 主 题 分 析 ， 查 看 页 面 右 侧 的 输出 信息 。 


1) 使 用 不 同 的 参数 ,分析 比较 结果 。 


2) 针对 分 析 的 结果 进行 解释 。 


84 ”拓展 思考 


应 用 层次 分 析 法 (Analytical Hierachy Process, AHP) 是 匹兹堡 大 学 T.L.Saaty 教 授 在 20 世 纪 70 年 代 初 期 提出 的 对 定性 问题 进行 定量 分 析 的 一 种 渐变 灵活 的 多 准则 决策 方案 ， 其 特点 是 把 复杂 问题 中 的 
各 种 因素 通过 划分 为 相互 联系 的 有 序 层次 ， 使 之 条 理化 ， 根 据 对 有 一 定 客观 现实 的 主观 进行 两 两 比较 ， 把 专家 意见 和 分 析 者 的 客观 判断 结果 直接 有 效 地 结合 起 来 ， 而 后 利用 数学 方法 计算 每 一 层 元 素 相对 重 
要 性 次 序 的 权 值 ， 最 终 通 过 所 有 层次 间 的 总 排序 计算 所 有 元 素 的 相对 权重 并 进行 排序 ， 从 而 分 析 消 费 者 决策 。 


模糊 综合 评判 (Fuzzy Comprehensive Evaluation, FCE) 是 20 世 纪 80 年 代 初 ， 我 国 模糊 数学 领域 的 汪 培 庄 教 授 提出 的 综合 评判 模型 ， 并 通过 广大 实际 工作 者 的 不 断 补充 发 展 ， 衍 生出 的 适用 于 各 种 
领域 的 评判 方法 。 模 糊 综合 评判 的 过 程 可 简 述 为 : 决策 者 将 价目 标 看 成 是 由 多 重 因素 组 成 的 因素 集 U， 再 设 定 这 些 因 素 所 能 选取 的 评审 等 级 ， 组 成 评语 的 评判 集合 V， 分 别 求 出 各 单一 因素 对 各 个 评审 等 级 的 
模糊 矩 阵 ， 然 后 根据 各 个 因素 在 评价 中 的 权重 分 配 ， 合 成 模糊 和 矩阵， 求 出 评价 的 定量 值 。 


但 是 这 两 种 方法 各 有 利弊 : AHP 能 够 准确 对 决策 定性 ， 但 其 决策 过 程 需要 经 过 大 量 数 据 比 对 来 最 终 通 过 概率 确定 权重 ; 而 FCE 中 虽然 有 很 好 的 定量 评价 ， 但 是 无 法 很 好 地 对 决策 定性 。 请 利用 本 案例 的 
数据 ， 尝 试 结合 对 二 者 来 分 析 电 商 平台 上 热水器 的 购买 决策 。 


AHP-FCE 模 型 的 建立 需要 经 历 以 下 三 个 步骤 ， 有 具体 流程 如 图 8-16 所 示 。 


. 划分 因素 层 ; 


- 应 用 AHP 构 造 消费 者 心理 的 隶属 函数 和 因素 权 集 合 ; 


. 对 所 求 结果 进行 综合 评判。 


« 划分 影 啊 因 系 
划分 购买 因素 © 确定 评判 准则 集 


© 构造 购买 决策 的 隶属 函 数 和 因素 权 集 
© 用 1 ~ 9 标 度 法 对 评价 指标 定性 描述 并 量化 


应 用 AHP 进 行 。 |。 确定 判断 矩阵 并 对 其 进行 一 致 性 检验 
定性 描述 
。 进行 综合 评判 ， 建 立 评判 集 
“用 隶属 度 分 别 描述 各 子 因素 相对 于 评判 集 的 隶属 程度 
对 购买 决策 进行 j。 得 出 单 因 素 模糊 判断 矩阵 
FCE 综 合 © 进行 一 级 模糊 综合 评判 和 二 级 模糊 综合 评判 
评判 


图 8-16 AHP-FCE 模 型 


85 小结 


本 章 通过 对 处 理 过 的 京东 三 家 品牌 型 号 的 热水器 的 文本 评论 数据 ， 利 用 栈 式 自 编码 神经 网 络 等 方法 建立 多 种 数据 挖掘 模型 ， 得 到 了 具有 一 定价 值 的 结果 ， 实 现 了 对 文本 评论 数据 的 情感 倾向 性 分 析 ， 包 
括 在 一 定 程度 上 的 对 用 户 赞 点 、 抱 怨 点 、 购 买 原因 等 更 细节 的 文本 信息 的 挖掘 与 认识 ， 这 些 结果 对 于 电 商 平台 以 及 相关 生产 商家 都 具有 一 定 的 指导 意义 。 


第 9 章 ”航空 公司 客户 价值 分 析 


91 背景 与 挖掘 目标 


信息 时 代 的 来 临 使 得 企业 营销 焦点 从 产品 中 心 转变 为 客户 中 心 ， 客 户 关系 管理 成 为 企业 的 核心 问题 。 客 户 关 系 管理 的 关键 问题 是 客户 分 类 ， 通 过 客户 分 类 ， 区 分 无 价值 客户 、 高 价值 客户 。 企 业 针 对 不 
同 价值 的 客户 制定 优化 的 个 性 化 服务 方案 ， 采取 不 同 营销 策略 ,将 有 限 营 销 资源 集中 于 高 价值 客户 ， 实 现 企业 利润 最 大 化 目标 。 准 确 的 客户 分 类 结果 是 企业 优化 营销 资源 分 配 的 重要 依据 ， 客 户 分 类 越 来 越 
成 为 客户 关系 管理 中 亚 待 解决 的 关键 问题 之 一 。 

面 对 激烈 的 市 场 竞 争 ， 各 个 航空 公司 都 推出 了 更 优惠 的 营销 方式 来 吸引 更 多 的 客户 ， 国 内 某 航 空 公司 面临 着 常 旅客 流失 、 竞 争 力 下 降 和 航空 资源 未 充分 利用 等 经 营 危机 。 通 过 建立 合理 的 客户 价值 评估 
模型 ， 对 客户 进行 分 群 ， 分 析 比 较 不 同 客户 群 的 客户 价值 ， 并 制定 相应 的 营销 策略 ， 对 不 同 的 客户 群 提供 个 性 化 的 客户 服务 是 必须 的 和 有 效 的 。 目 前 该 航空 公司 已 积累 了 大 量 的 会 员 档 案 信 息 和 其 乘坐 航班 
记录 ， 经 加 工 后 得 到 如 表 9-1 所 示 的 数据 信息 。 
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LOAD_TIME 观测 窗口 的 结束 时 间 
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i: 观测 窗口 ， 以 过 去 菜 个 时 间 点 为 结束 时 间 ， 某 一 时 间 长 度 作 为 宽度 ， 得 到 历史 时 间 范 围 内 的 一 个 时 间 段 。 
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数据 详 见 : 01- 示 例 数据 /航空 数据 .csv 

根据 表 9-2 所 示 的 数据 实现 以 下 目标 : 

1) 借助 航空 公司 客户 数据 ， 对 客户 进行 分 类 ; 

2) 对 不 同 的 客户 类 别 进行 特征 分 析 ， 比 较 不 同类 客户 的 价值 ; 


3) 对 不 同 价值 的 客户 类 别提 供 个 性 化 服务 ， 制 定 相应 的 营销 策略 。 


PIS ”航空 公司 客户 价值 分 析 


91 ”背景 与 挖掘 目标 


信息 时 代 的 来 临 使 得 企业 营销 焦点 从 产品 中 心 转 变 为 客户 中 心 ， 客 户 关系 管理 成 为 企业 的 核心 问题 。 客 户 关系 管理 的 关键 问题 是 客户 分 类 ， 通 过 客户 分 类 ， 区 分 无 价值 客户 、 高 价值 客户 。 企 业 针对 不 
同 价值 的 客户 制定 优化 的 个 性 化 服务 方案 ， 采取 不 同 营销 策略 ， 将 有 限 营 销 资 源 集 中 于 高 价值 客户 ， 实 和 结果 是 企业 优化 营销 资源 分 配 的 重要 依据 ， 客 户 分 类 越 来 越 
成 为 客户 关系 管理 中 琶 待 解决 的 关键 问题 之 一 。 
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面 对 激烈 的 市 场 竞 争 ， 各 个 航空 公司 都 推出 了 更 优惠 的 营销 方式 来 吸引 更 多 的 客户 ， 国 内 某 航 空 公司 面临 着 常 旅客 流失 、 竞 争 力 下 降 和 航空 资源 未 充分 利用 等 经 营 危机 。 通 过 建立 合理 的 客户 价值 评估 
模型 ， 对 客户 进行 分 群 ， 分 析 比 较 不 同 客户 群 的 客户 价值 ， 并 制定 相应 的 营销 策略 ， 对 不 同 的 客户 群 提供 个 性 化 的 客户 服务 是 必须 的 和 有 效 的 。 目 前 该 航空 公司 已 积累 了 大 量 的 会 员 档 案 信 息 和 其 乘坐 航班 
记录 ， 经 加 工 后 得 到 如 表 9-1 所 示 的 数据 信息 。 


表 9-1 航空 信息 属性 表 
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LAST_TO_END 最 后 一 次 乘机 时 间 至 观测 窗口 结束 时 长 
AVG_DISCOUNT 平均 折扣 率 
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LAST_FLIGHT_DATE 未 次 飞行 日 期 
AVG_INTERVAL 平均 乘机 时 间 间 隔 
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EXCHANGE_COUNT flay ht i 
EP_SUM 总 精英 积分 
PROMOPTIVE_SUM 促销 积分 
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积分 信息 PARTNER SUM 侣 作 伙 伴 积分 


POINTS SUM fa stp aay 


POINT. NOTFLIGHT ARSE BLIPTEH ap AE zl X EXC 


BP SUM ii SL AS Hr 


i: 观测 窗口 ， 以 过 去 菜 个 时 间 点 为 结束 时 间 ， 某 一 时 间 长 度 作 为 宽度 ， 得 到 历史 时 间 范 围 内 的 一 个 时 间 段 。 


表 9-2 航空 信息 数据 表 
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数据 详 见 : 01- 示 例 数据 /航空 数据 .csv 
根据 表 9-2 所 示 的 数据 实现 以 下 目标 : 


1) 借助 航空 公司 客户 数据 ， 对 客户 进行 分 类 ; 


0 


2) 对 不 同 的 客户 类 别 进行 特征 分 析 ， 比 较 不 同类 客户 的 价值 ; 


3) 对 不 同 价值 的 客户 类 别提 供 个 性 化 服务 ， 制 定 相应 的 营销 策略 。 


9.2 分 析 万 法 与 过 程 


这 个 案例 的 目标 是 识别 客户 价值 ， 即 通过 航空 公司 客户 数据 识别 不 同 价 值 的 客户 。 识 别 客户 价值 应 用 最 广泛 的 模型 是 通过 三 个 指标 (最 近 消 费时 间 间 隔 recency、 消 费 频率 frequency、 消 费 金额 
monetary) 来 进行 客户 细 分 ， 识 别 出 高 价值 的 客户 ， 简 称 RFM 模 型 。 


在 RFM 模 型 中 ,消费 金额 表示 在 一 段 时 间 内 ， 客 户 购 买 该 企业 产品 的 总 金额 。 由 于 航空 票 价 受 到 运输 距离 、 舱 位 等 级 等 多 种 因素 影响 ， 同 样 消费 金额 不 同 的 旅客 对 航空 公司 的 价值 是 不 同 的 。 比 如 一 位 
购买 长 航线 、 低 等 级 舱位 票 的 旅客 与 一 位 购买 短 航线 、 高 等 级 舱位 票 的 旅客 相 比 ， 后 者 对 于 航空 公司 而 言 价值 可 能 更 高 。 因 此 这 个 指标 并 不 适用 于 航空 公司 的 客户 价值 分 析 。 我 们 选择 客户 在 一 定时 间 内 累 
积 的 飞行 里 程 M 和 客户 在 一 定时 间 内 乘坐 舱位 所 对 应 的 折扣 系数 的 平均 值 C 两 个 指标 代替 消费 金额 。 此 外 ， 考 虑 航空 公司 会 员 入 会 时 间 的 长 短 在 一 定 程度 上 能 够 影响 客户 价值 ， 所 以 在 模型 中 增加 客户 关系 
长 度 L， 作 为 区 分 客户 的 另 一 指标 。 


ast 


本 案例 将 客户 关系 长 度 L、 消 费时 间 间 隔 R、 消 费 频率 F、 飞 行 里 程 M 和 折扣 系数 的 平均 值 C 五 个 指标 作为 航空 公司 识别 客户 价值 指标 ( 见 表 9-3) ， 记 为 LRFMC 模 型 。 
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表 9-3 ”指标 含义 


客户 最 近 一 
UR He Ns ZS n] K 


会 员 人 会 时 
间距 观测 窗口 
结束 的 月 数 


客户 在 观测 客户 在 观测 客户 在 观测 窗口 
窗口 内 乘坐 公 | 窗口 内 累计 的 | 内 乘坐 舱位 所 对 应 
本 飞机 的 次 数 飞行 里 程 的 折扣 系数 的 平均 值 


航空 公司 LR- 
FMC 模型 机 距 观 测 窗口 


结束 的 月 数 


针对 航空 公司 LRFMC 模 型 ， 如 果 采 用 传统 RFM 模 型 分 析 的 属性 分 箱 方法 ( 见 图 9-1) ， 它 是 依据 属性 的 平均 值 进行 划分 ， 其 中 大 于 平均 值 的 表示 为 Tt， 小 于 平均 值 的 表示 为 |) ， 虽 然 也 能 够 识别 出 最 有 
价值 的 客户 ,但 是 细 分 的 客户 群 太 多 ， 提 高 了 针对 性 营销 的 成 本 。 因 此 ， 本 案例 采用 聚 类 的 方法 识别 客户 价值 。 通 过 对 航空 公司 客户 价值 的 LRFMC 五 个 指标 进行 K-Means 聚 类 ， 识 别 出 最 有 价值 客户 。 


重要 挽留 客户 重要 发 展 客户 


重要 保持 客户 重要 价值 客户 


图 9-1 RFM 模 型 分 析 


本 案例 航空 客户 价值 分 析 的 总 体 流程 如 图 9-2 所 示 。 
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图 9-2 ”航空 客运 数据 挖 据 建 模 总 体 流 程 
航空 客运 信息 挖掘 主要 包括 以 下 步骤 : 
1) 从 航空 公司 的 数据 源 中 进行 选择 性 抽取 与 新 增 数 据 抽取 分 别 形 成 历史 数据 和 增 量 数据 。 
2) 对 1) 形成 的 两 个 数据 集 进行 数据 探索 分 析 与 预 处 理 ， 包 括 数据 缺失 值 与 异常 值 的 探索 分 析 ， 数 据 的 属性 规约 、 清 洗 和 变换 。 
3) 利用 2) 形成 的 已 完成 数据 预 处 理 的 建 模 数据 ， 基 于 旅客 价值 LRF MC 模 型 进行 客户 分 群 ， 对 各 个 客户 群 进行 特征 分 析 ， 识 别 出 有 价值 的 客户 。 


4) 针对 模型 结果 得 到 不 同 价 值 的 客户 ， 采 用 不 同 的 营销 手段 ， 提 供 定制 化 的 服务 。 


9.2.1 数据 抽取 


以 2014-03-31 为 结束 时 间 ， 选 取 宽 度 为 两 年 的 时 间 段 作为 分 析 观 测 窗口 ， 抽 取 观 测 窗口 内 有 乘机 记录 的 所 有 客户 的 详细 数据 形成 历史 数据 。 对 于 后 续 新 增 的 客户 详细 信息 ， 以 后 续 新 增 数据 中 最 新 的 时 
间 点 作为 结束 时 间 ， 采 用 上 述 同 样 的 方法 进行 抽取 ， 形 成 增 量 数 据 。 


从 航空 公司 系统 内 的 客户 基本 信息 、 乘 机 信息 以 及 积分 信息 等 详细 数据 中 ， 根 据 未 次 飞行 日 期 (LAST FLIGHT DATE) ， 抽 取 2012-04-01 至 2014-03-31 内 所 有 乘客 的 详细 数据 ， 总 共 62988 条 记录 。 
其 中 包含 了 会 员 卡 号 、 入 会 时 间 、 性 别 、 年 龄 、 会 员 卡 级 别 、 工 作 地 城市 、 工 作 地 所 在 省 份 、 工 作 地 所 在 国家 、 观 测 窗 口 结束 时 间 、 观 测 窗口 乘机 积分 、 飞 行 公里 数 、 飞 行 次 数 、 飞 行 时 间 、 乘 机 时 间 间 
隔 、 平 均 折扣 率 等 44 个 属性 。 


9.2.2 ”数据 探索 分 析 


本 案例 的 探索 分 析 是 对 数据 进行 缺失 值 分 析 与 异常 值 分 析 ， 得 出 数据 的 规律 以 及 异常 值 。 通 过 对 数据 观察 发 现 原始 数据 中 存在 票 价 为 空 值 ， 票 价 最 小 值 为 0、 折 扣 率 最 小 值 为 0、 总 飞行 公里 数 大 于 0 的 
记录 。 票 价 为 空 值 的 数据 可 能 是 客户 不 存在 乘机 记录 造成 。 其 他 的 数据 可 能 是 客户 乘坐 0 折 机 票 或 者 积分 部 换 造 成 。 


根据 原始 数据 进行 数据 探索 分 析 ， 得 到 的 结果 见 表 9-4。 


表 9-4 数据 探索 分 析 结 果 表 


al 9 1 wh ll 3 


9.2.3 ”数据 预 处 理 
本 案例 主要 采用 数据 规约 、 数 据 清洗 与 数据 变换 的 预 处理 方 法 。 
1 .数据 清洗 


通过 数据 探索 分 析 ， 发 现 数据 中 存在 缺失 值 ， 票 价 最 小 值 为 0、 折 扣 率 最 小 值 为 0、 总 飞行 公里 数 大 于 0 的 记录 。 由 于 原始 数据 量 大 ， 这 类 数据 所 占 比 例 较 小 ， 对 问题 影响 不 大 ， 因 此 对 其 进行 丢弃 处 
理 。 具 体 处 理 规则 如 下 : 


- 丢弃 票 价 为 空 的 记录 。 
弃 票 价 为 0、 平 均 折 扣 率 不 为 0、 总 飞行 公里 数 大 于 0 的 记录 。 
2. 属 性 规约 


原始 数据 中 的 属性 太 多 ， 根 据 航 空 公司 客户 价值 LRFMC 模 型 ， 选 择 与 LRFMC 指 标 相 关 的 6 个 属性 : FFP DATE, LOAD TIME, FLIGHT COUNT, AVG DISCOUNT, SEG KM SUM, 
LAST_TO_END。 删 除 与 其 不 相关 、 弱 相关 或 元 余 的 属性 ， 如 会 员 卡 号 、 性 别 、 工 作 地 城市 、 工 作 地 所 在 省 份 、 工 作 地 所 在 国家 、 年 龄 等 属性 。 经 过 属性 选择 后 的 数据 集 如 表 9-5 所 示 。 


表 9-5 属性 选择 后 的 数据 集 


201473731 2007/1/26 22 36 0. 88 


( 续 ) 
2014/3/31 2004/12/18 56 | 6 | 732 0. 66 
2014/3/31 23 36 132 1.07 


3. 数 据 变换 
数据 变换 是 将 数据 转换 成 “适当 的 ”格式 ， 以 适应 挖掘 任务 及 算法 的 需要 。 本 案例 中 主要 采用 的 数据 变换 方式 有 属性 构造 和 数据 标准 化 。 
原始 数据 中 并 没有 直接 给 出 LRFMC 5 个 指标 ， 需 要 通过 原始 数据 提取 这 5 个 指标 ， 具 体 的 计算 方式 如 下 : 
- L=LOAD_TIME-FFP_DATE: 会 员 入 会 时 间距 观测 窗口 结束 的 月 数 = 观测 窗口 的 结束 时 间 -入 会 时 间 [单位 : 月 ] 
:R-LAST TO END: 客户 最 近 一 次 乘坐 公司 飞机 距 观 测 窗口 结束 的 月 数 = 最 后 一 次 乘机 时 间 至 观察 窗口 末端 时 长 【单位 : A] 
: F=FLIGHT_COUNT: 客户 在 观测 窗口 内 乘坐 公司 飞机 的 次 数 = 观 测 窗口 的 飞行 次 数 [单位 : 次 ] 
: M=SEG_KM_SUM: 客户 在 观测 时 间 内 在 公司 累计 的 飞行 里 程 = 观测 窗口 总 飞行 公里 数 [单位 : 公里 ] 
: C=AVG_DISCOUNT: 客户 在 观测 时 间 内 乘坐 舱位 所 对 应 的 折扣 系数 的 平均 值 = 平均 折扣 率 [单位 : 无 ] 


提取 5 个 指标 的 数据 后 ， 对 每 个 指标 数据 分 布 情况 进行 分 析 ， 其 数据 的 取 值 范 围 如 表 9-6 所 示 。 从 表 中 数据 可 以 发 现 ，5 个 指标 的 取 值 范围 数据 差异 较 大 ， 为 了 消除 数量 级 数据 带 来 的 影响 ， 需 要 对 数据 
进行 标准 化 处 理 。 


表 9-6 LRFMC 指 标 取 值 范围 


meee | Lt | R | F | M | C 
最 大 值 114. 63 213 580 717 1.5 


标准 化 处 理 后 ， 形 成 ZL、ZR、ZF、ZM、ZC 5 个 属性 的 数据 ， 如 表 9-7 所 示 。 


表 9-7 标准 化 处 理 后 的 数据 集 
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ik: 数据 详 见 : 01- 示 例 数 据 /标准 化 处 理 后 数据 .xls。 


9.24 ”模型 构建 


客户 价值 分 析 模 型 构建 主要 由 两 个 部 分 构成 ， 第 一 个 部 分 根据 航空 公司 客户 5 个 指标 的 数据 ， 对 客户 作 聚 类 分 群 。 第 二 部 分 结合 业务 对 每 个 客户 群 进行 特征 分 析 ， 分 析 其 客户 价值 ， 并 对 每 个 客户 群 进行 
排名 。 


1. 客 户 聚 类 


利用 TipDM -HB 数据 挖掘 平台 的 云 C-Means 聚 类 算法 对 客户 数据 进行 客户 分 群 ， 聚 成 ?类 (此 类 别 数目 是 结合 业务 的 理解 与 分 析 来 确定 的 ) 。 


登录 TipDM-HB 数 据 挖掘 平台 后 ， 新 建 方 案 ， 接 着 导入 数据 “01- 示 例 数 据 / 标 准 差 处 理 后 数据 .csv” ， 数 据 加 载 完成 后 ， 刷 新 即 可 看 到 数据 (注意 : 此 数据 比较 大 ， 加 载 需要 较 长 时 间 。 调 用 TipDM- 
HB 数据 挖掘 平台 的 云 C-Means 算 法 时 ， 导 入 的 数据 列 属性 为 : “ZL、ZR、ZF、ZM、ZC”， 参 数 设 置 为 : “距离 计算 方法 ”为 欧 氏 距离 ，“ 收 敛 系 数 ”为 0.5，“ 阀 值 ”为 0.5，“ 最 大 迭代 次 数 ”为 
5，“ 分 群 数 量 ” 为 95，“Canopy t1” 为 10，“Canopy t2” 为 5。 


TipDM-HB 数 据 挖 掘 平台 聚 类 完成 后 ， 可 以 在 右边 界面 看 到 输出 信息 ， 如 表 9-8 所 示 。 


表 9-8 TipDM-HB 数 据 挖掘 平台 云 K-Means 算 法 聚 类 输出 结果 


roe 
Cluster# 
Attribute Full Data 0 ] 2 3 4 
(62044 ) (5337) (15735) (12130) (24644) (4198) 
Zl 0 0. 483 1. 160 —0. 314 — 0. 701 0. 057 
ZR 0 —0. 799 一 0. 377 1.686 —0. 415 — 0. 006 
ZF 0 2. 483 — 0. 087 — 0. 574 — 0. 161 一 0. 227 
ZM — 0. 0001 2. 424 一 0. 537 一 0. 485 一 0. 165 —Q. 230 


对 数据 进行 整理 ， 可 以 得 到 如 表 9-9 所 示 的 结果 。 
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表 9-9 客户 聚 类 结果 
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图 9-3 客户 群 特征 分 析 图 


针对 聚 类 结果 进行 特征 分 析 ， 如 图 9-3 所 示 。 其 中 客户 群 1 在 F、M 属 性 上 最 大 ， 在 R 属 性 上 最 小 ; 客户 群 2 在 L 属 性 上 最 大 ; 客户 群 3 在 R 属 性 上 最 大 ， 在 F、M 属 性 上 最 小 ; 客户 群 4 在 L、C 属 性 上 最 小 ; 


客户 群 5 在 C 属 性 上 最 大 。 结 合 


业务 分 析 ， 通 过 比较 各 个 指标 在 群 间 的 大 小 对 某 一 个 群 的 特征 进行 评价 分 析 。 如 客户 群 1 在 F、M 属 性 最 大 ， 在 R 指 标 最 小 ， 因 此 可 以 说 F[、M、R 在 群 1 是 优势 特征 ; 以 此 类 


推 ，F、M、R 在 群 3 上 是 务 势 特征 。 从 而 总 结 出 每 个 群 的 优势 和 弱势 特征 ， 具 体 结果 如 表 9-10 所 示 。 


群 类 别 
客户 群 ] 
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表 9-10 客户 群 特征 描述 表 


弱势 特征 


ii 正常 字体 表示 最 大 值 、 加 粗 字 体 表示 次 大 值 、 斜 体 字 体 表示 最 小 值 、 带 下 划 线 的 字体 表示 次 小 值 。 


由 上 述 特 征 分 析 的 图 表 说 明 每 个 客户 群 都 有 显著 不 同 的 表现 特征 ， 基 于 该 特征 描述 ， 本 案例 定义 5 个 等 级 的 客户 类 别 : 重要 保持 客户 、 重 要 发 展 客户 、 重 要 挽留 客户 、 一 般 客户 、 低 价值 客户 。 他 们 之 间 
的 区 别 如 图 9-4 所 示 ， 其 中 每 种 客户 类 别 的 特征 如 下 : 


重要 保持 客户 : 这 类 客户 一 般 所 乘 航班 的 舱位 等 级 (C) 较 高 ， 最 近来 坐 过 本 公司 航班 (R) 低 ， 乘 坐 的 次 数 F) 或 里 程 (M) 较 高 。 他 们 是 航空 公司 的 高 价值 客户 ， 是 最 为 理想 的 客户 类 型 ， 对 航空 
公司 的 贡献 最 大 ， 所 占 比 例 却 较 小 。 航 空 公司 应 该 优先 将 资源 投放 到 他 们 身上 ， 对 他 们 进行 差异 化 管理 和 一 对 一 营销 ， 提 高 这 类 客户 的 忠诚 度 与 满意 度 ， 尽 可 能 延长 这 类 客户 的 高 水 平 消费 。 


‘BERBER: 这 类 客户 一 般 所 乘 航班 的 舱位 等 级 (C) 较 高 ， 最 近 乘 坐 过 本 公司 航班 (R) 低 ， 但 乘坐 次 数 (F) 或 乘坐 里 程 (M) 较 低 。 这 类 客户 入 会 时 长 (D) 短 ， 他 们 是 航空 公司 的 潜在 价值 客 
户 。 虽 然 这 类 客户 的 当前 价值 并 不 是 很 高 ， 但 却 有 很 大 的 发 展 潜力 。 航 空 公司 要 努力 促使 这 类 客户 增加 在 本 公司 的 乘机 消费 和 合作 伙伴 处 的 消费 ， 也 就 是 增加 客户 的 钱包 份额 。 通 过 提升 客户 价值 ， 加 强 这 
类 客户 的 满意 度 ， 提 高 他 们 转向 竞争 对 手 的 成 本 ， 使 他 们 逐渐 成 为 公司 的 忠诚 客户 。 


. 重要 挽留 客户 : 这 类 客户 过 去 所 乘 航班 的 舱位 等 级 (C) 、 乘 坐 次 数 (F) 或 者 里 程 (M) 较 高 ， 但 是 较 长 时 间 没 有 乘坐 本 公司 的 航班 (R 高 或 是 乘坐 频率 变 小 。 他 们 客户 价值 变化 的 不 确定 性 很 高 。 
由 于 这 些 客户 衰退 的 原因 各 不 相同 ， 所 以 掌握 客户 的 最 新 信息 、 维 桂 与 客户 的 互动 就 显得 尤为 重要 。 航 空 公司 应 该 根据 这 些 客户 的 最 近 消 费时 间 、 消 费 次 数 的 变化 情况 ， 推 测 客户 消费 的 异动 状况 ， 并 列 出 
客户 名 单 ， 对 其 重点 联系 ， 采 取 一 定 的 营销 手段 ， 延 长 客户 的 生命 周期 。 


: 一 般 与 低 价值 客户 : 这 类 客户 所 乘 航班 的 舱位 等 级 (C) 很 低 ， 较 长 时 间 没 有 乘坐 过 本 公司 航班 (R) 高 ， 乘 坐 的 次 数 (F) 或 里 程 (M) 较 低 ， 入 会 时 长 (L) 短 。 他 们 是 航空 公司 的 一 般 用 户 与 低 价 
值 客 户 ， 可 能 只 有 在 航空 公司 机 票 打 折 促 销 时 ， 才 会 乘坐 本 公司 航班 。 
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图 9-4 客户 类 别 的 特征 分 析 
其 中 ， 重 要 发 展 客户 、 重 要 保持 客户 、 重 要 挽留 客户 这 三 类 重要 客户 分 别 可 以 归 入 客户 生命 周期 管理 的 用 展 期 、 稳 定期 、 衰 退 期 3 个 阶段 。 


根据 每 种 客户 类 型 的 特征 ， 对 各 类 客户 群 进行 客户 价值 排名 ， 其 结果 如 表 9-11 所 示 。 针 对 不 同类 型 的 客户 群 提供 不 同 的 产品 和 服务 ， 提 升 重要 发 展 客户 的 价值 、 稳 定 和 延长 重要 客户 的 高 水 平 消费 ， 防 
范 重 要 挽留 客户 流失 并 积极 进行 关系 恢复 。 


表 9-11 客户 群 价值 排名 
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本 模型 采用 历史 数据 进行 建 模 ， 随 着 时 间 的 变化 ， 分 析 数 据 的 观测 窗口 也 在 变换 。 因 此 ， 对 于 新 增 客户 详细 信息 ， 考 虑 业务 的 实际 情况 ， 该 模型 建议 每 一 个 月 运行 一 次 ， 对 其 新 增 客户 信息 通过 聚 类 中 
心 判断 ， 同 时 分 析 本 次 新 增 客户 的 特征 。 如 果 增 量 数据 的 实际 情况 与 判断 结果 差异 大 ， 需 要 业务 部 门 重点 关注 ， 查 看 变化 大 的 原因 以 及 确认 模型 的 稳定 性 。 如 果 模 型 稳定 性 变化 大 ， 需 要 重新 训练 模型 进行 
调整 。 目 前 模型 进行 重新 训练 的 时 间 没 有 统一 标准 ， 大 部 分 情况 都 是 根据 经 验 来 决定 。 根 据 经 验 建 议 : 每 隔 半 年 训练 一 次 模型 比较 合适 。 


3. 模 型 应 用 
根据 对 各 个 客户 群 进行 特征 分 析 ， 采 取 下 面 的 一 些 营销 手段 和 策略 ， 为 航空 公司 的 价值 客户 群 管理 提供 参考 。 


(1) 会 员 的 升级 与 保级 


航空 公司 的 会 员 可 以 分 为 白金 卡 会 员 、 金 卡 会 员 、 银 卡 会 员 、 普 通 卡 会 员 ， 其 中 非 普通 卡 会 员 可 以 统称 为 航空 公司 的 精英 会 员 。 昌 然 各 个 航空 公司 都 有 自己 的 特点 和 规定 ， 但 会 员 制 的 管理 方法 大 同 小 
异 。 成 为 精英 会 员 一 般 都 是 要 求 在 一 定时 间 内 (如 一 年 ) 积累 一 定 的 飞行 里 程 或 航 段 ， 达 到 这 种 要 求 就 会 在 有 效 期 内 (通常 为 两 年 ) 成 为 精英 会 员 ， 并 享受 相应 的 高 级 别 服务 。 有 效 期 快 结束 时 ， 根 据 相 关 
评价 方法 确定 客户 是 否 有 资格 继续 作为 精英 会 员 ， 然 后 对 该 客户 进行 相应 地 升级 或 降级 


通 


然而 ， 由 于 许多 客户 并 没有 意识 到 或 根本 不 了 解 会 员 升 级 或 保级 的 时 间 与 要 求 (相关 的 文件 说 明 往 往复 杂 且 不 易 理 解 ) ， 经 常 在 评价 期 过 后 才 发 现 自己 其 实 只 差 一 点 就 可 以 实现 升级 或 保级 ， 却 错过 了 
机 会 ， 使 之 前 的 里 程 积累 白白 损失 。 同 时 ， 这 种 认 知 还 可 能 导致 客户 的 不 满 ， 干 脆 放 弃 在 本 公司 消费 。 


因此 ， 航 空 公司 可 以 在 对 会 员 升 级 或 保级 进行 评价 的 时 间 点 之 前 ， 对 那些 接近 但 尚未 达到 要 求 的 较 高 消费 客户 进行 适当 提醒 甚至 采取 一 些 促销 活动 ， 刺 激 他 们 通过 消费 达到 相应 标准 。 这 样 既 可 以 获得 
收益 ， 又 提高 了 客户 的 满意 度 ， 增 加 了 公司 的 精英 会 员 。 


(2) 首次 兄 换 


航空 公司 常 旅客 计划 中 最 能 够 吸引 客户 的 内 容 就 是 客户 可 以 通过 消费 积累 的 里 程 来 儿 换 免票 或 免费 升 舱 等 。 各 个 航空 公司 都 有 一 个 首次 品 换 标准 ， 也 就 是 只 有 客户 的 里 程 或 朋 段 积累 到 一 定 程度 时 ， 才 
可 以 实现 第 一 次 名 换 。 这 个 标准 会 高 于 正常 的 里 程 品 换 标准 。 但 是 很 多 公司 的 里 程 积累 随 着 时 间 会 进行 一 定 的 削减 ， 例 如 有 的 公司 会 在 年 未 对 该 年 积累 的 里 程 进行 折 半 处 理 。 这 样 会 导致 许多 不 了 解 情况 的 

会 员 白 白 损 失 自己 好 不 容易 积累 的 里 程 ， 甚 到 总 是 难以 实现 首次 吕 换 。 同 样 ， 这 也 会 引起 客户 的 不 满 或 流失 。 可 以 采取 的 措施 是 从 数据 库 中 提取 出 接近 但 尚未 达到 首次 总 换 标准 的 会 员 ， 对 他 们 进行 提醒 或 
促销 ， 使 他 们 通过 消费 达到 标准 。 一 旦 实现 了 首次 品 换 ， 客 户 在 本 公司 进行 再 次 消费 史 换 就 比 在 其 他 公司 进行 品 换 要 容易 许多 ， 在 一 定 程度 上 等 于 提高 了 转移 的 成 本 。 另 外 ， 在 一 些 特殊 的 时 间 点 (如 里 程 
折 半 的 时 间 点 ) 之 前 可 以 给 客户 一 些 提醒 ， 这 样 可 以 增加 客户 的 满意 度 


(3) 交叉 销售 


通过 发 行 联名 卡 等 与 非 航空 类 企业 的 合作 ， 使 客户 在 其 他 企业 的 消费 过 程 中 获得 本 公司 的 积分 ， 增 强 与 公司 的 联系 ,提高 他 们 的 忠诚 度 。 如 可 以 查看 重要 客户 在 非 航 空 类 合作 伙伴 处 的 里 程 积累 情况 ， 
找 出 他 们 习惯 的 里 程 积累 方式 (是 否 经 常 在 合作 伙伴 处 消费 、 更 喜欢 消费 哪些 类 型 合作 伙伴 的 产品 ) ， 对 他 们 进行 相应 促销 。 


客户 识别 期 和 发 展期 为 客户 关系 打下 基石 ， 但 是 这 两 个 时 期 带 来 的 客户 关系 是 短暂 的 、 不 稳定 的 。 企 业 要 获取 长 期 的 利润 ， 必 须 具 有 稳定 、 高 质量 的 客户 。 保 持 客户 对 于 企业 是 至 关 重 要 的 ， 不 仪 因为 
争取 一 个 新 客户 的 成 本 远 远 高 于 维持 老 客户 的 成 本 ， 更 重要 的 是 客户 流失 会 造成 公司 收益 的 直接 损失 。 因 此 ， 在 这 一 时 期 ， 航 空 公司 应 该 努力 维系 客户 关系 水 平 ， 使 之 处 于 较 高 的 水 准 ， 最 大 化 生命 周期 内 


公司 与 客户 的 互动 价值 ， 并 使 这 样 的 高 水 平 尽 可 能 延长 。 对 于 这 一 阶段 的 客户 ， 主 要 通过 提供 优质 的 服务 产品 和 提高 服务 水 平 来 提高 客户 的 满意 度 。 通 过 对 常 旅客 数据 库 的 数据 挖掘 、 进 行 客户 细 分 ， 可 以 
获得 重要 保持 客户 的 名 单 。 这 类 客户 一 般 所 乘 航班 的 舱位 等 级 (C) 较 高 ， 最 近 乘 坐 过 本 公司 航班 (RE) ， 乘坐 的 频率 (F) 或 里 程 (M) 也 较 高 。 他 们 是 航空 公司 的 价值 客户 ， 是 最 为 理想 的 客户 类 型 ， 
对 航空 公司 的 贡献 最 大 ， 所 占 比例 却 比较 小 。 航 空 公司 应 该 优先 将 资源 投放 到 他 们 身上 ， 对 他 们 进行 差异 化 管理 和 一 对 一 曹 销 ， 提 高 这 类 客户 的 忠诚 度 与 满意 度 ， 尽 可 能 延长 这 类 客户 的 高 水 平 消费 。 


9.3 ”上 机 实验 


1. 实 验 目的 
.加深 对 云 平 台 区 -Means 算 法 原理 的 理解 及 使 用 。 
-了解 云 平 台 区 -Means 聚 类 算法 在 客户 价值 分 析 实 例 中 的 应 用 。 


. 掌握 使 用 云 平台 区 -Means 算 法 解决 实际 问题 的 方法 。 


- 依据 航空 公司 客户 价值 分 析 的 LRFMC 模 型 提取 客户 信息 的 LRFMC 指 标 。 利 用 标准 差 标准 化 后 的 数据 ， 采 用 云 平 台 K-Means 算 法 完成 客户 的 聚 类 ， 分 析 每 类 的 客户 特征 ， 从 而 获得 每 类 的 客户 价值 。 

3. 实 验方 法 与 步骤 

登录 TipDM -HB 数据 挖掘 平台 后 ， 可 直接 双击 打开 方案 “基于 聚 类 分 析 的 航空 公司 客户 价值 分 析 ” ， 从 而 跳 过 步骤 (1) ~ (3) 。 

(1) 数据 准备 

下 载 “02- 上 机 实验 /标准 差 处 理 后 数据 .csv” ， 该 数据 如 表 9-7 所 示 。 

(2) 创建 方案 

登录 TipDM-HB 数 据 挖 气 平 台 ， 在 “方案 管理 ”页 面 选 择 “ 聚 类 分 析 ” 创 建 一 个 新 方案 。 

方案 名 称 : 基于 聚 类 分 析 的 航空 公司 客户 价值 分 析 。 


方案 描述 : 通过 提取 航空 公司 客户 的 LRFMC 5 个 指标 数据 ， 利 用 云 平台 K-Means 聚 类 分 析 来 进行 客户 价值 聚 类 ， 以 区 别 不 同 价值 的 客户 。 使 用 云 平 台 K-Means 聚 类 分 析 进 行 训练 得 到 各 个 价值 用 户 的 


(3) 上 传 数据 


入 “数据 管理 ”标签 页 ， 选 择 下 载 的 数据 并 上 传 ， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 “刷新 ”按钮 刷新 数据 。 这 里 上 传 的 数据 是 标准 差 化 后 的 数据 ， 所 以 其 属性 名 已 经 做 了 修改 。 


选择 “系统 菜单 ”一 “ 云 算法 ”一 “ 云 聚 类 算法 ”。 


1) 导入 数据 : 选择 “标准 差 处 理 后 数据 .csv” 文 件 , 选择 “ZL、ZR、ZF、ZM、ZC” 属 性 列 ， 点 击 “ 导 入 数据 ”按钮 。 


— 


2) 参数 设置 : RE “IRR A" AMES, "KARA" 730.5, “iB” 730.5, "EXAJGETUXEX 735, "AERA" 735, “Canopy tl” 7310, “Canopy t2" 75, 


— 


3) 聚 类 分 析 : 对 导入 的 样本 数据 ， 进 行 聚 类 分 析 ， 查 看 页 面 右 侧 的 输出 信息 。 


1) 尝试 使 用 没有 经 过 标准 差 标准 化 处 理 的 数据 进行 云 K-Means 聚 类 分 析 ， 对 比 经 过 标准 差 标 准 化 的 结果 ， 分 析 标 准 差 标 准 化 的 好 处 。 


2) 云 C-Means 聚 类 分 析 的 初始 聚 类 中 心 可 以 使 用 什么 算法 得 到 ? 


3) 使 用 其 他 聚 类 分 析 算 法 来 对 数据 进行 分 析 ， 对 比分 析 结 果 ， 分 析 各 种 聚 类 分 析 算 法 的 优 务 。 


94 拓展 思 


本 章 主 要 针对 客户 价值 进行 分 析 ， 但 客户 流失 并 没有 具体 分 析 。 由 于 在 航空 客户 关系 管理 中 ， 客 户 流失 的 问题 未 被 重视 ， 故 对 航空 公司 造成 了 巨大 的 损害 。 客 户 流失 对 利润 增长 造成 的 负面 影响 非常 
大 ， 仅 次 于 公司 规模 、 市 场 占 有 率 、 单 位 成 本 等 因素 的 影响 。 客 户 与 航空 公司 之 间 的 关系 越 长 久 ， 给 公司 带 来 的 利润 就 会 越 高 。 所 以 流失 一 个 客户 ， 比 获得 一 个 新 客户 对 公司 的 损失 更 大 。 因 为 要 获得 新 客 
户 ， 需 要 在 销售 、 市 场 、 广 告 和 人 员工 资 上 人 花费 很 多 的 费用 ， 并 且 大 多 数 新 客户 产生 的 利润 还 不 如 那些 流失 的 老 客 户 多 。 

因此 ， 在 国内 航空 市 场 竞争 日 益 激烈 的 背景 下 ， 航 空 公司 在 客户 流失 方面 应 该 引起 足够 重视 。 如 何 改善 流失 问题 ， 继 而 提高 客户 满意 度 、 忠 诚 度 是 航空 公司 维护 自身 市 场 并 面 对 激 烈 竞 争 的 一 件 大 事 ， 
客户 流失 分 析 将 成 为 帮助 航空 公司 开展 持续 改进 活动 的 指南 。 

客户 流失 分 析 可 以 针对 目前 老 客户 进行 分 类 预测 。 针 对 航空 公司 客户 信息 数据 ( 见 表 9-2) ， 可 以 定义 者 客户 以 及 客户 类 型 (其 中 将 “飞行 次 数 大 于 6 次 的 客户 定义 为 者 客户 ， 已 流失 客户 定义 为 : 第 二 年 
飞行 次 数 与 第 一 年 飞行 次 数 比 例 小 于 50% 的 客户 ; 准 流失 客户 定义 为 : 第 二 年 飞行 次 数 与 第 一 年 飞行 次 数 比例 在 [50%, 90%) 内 的 客户 ; 未 流失 客户 定义 为 : 第 二 年 飞行 次 数 与 第 一 年 飞行 次 数 比例 大 于 
90% 的 客户 ) 。 同 时 需要 选取 客户 信息 中 的 关键 属性 ， 如 会 员 卡 级 别 、 客 户 类 型 (流失 、 准 流失 、 示 流失 ) 、 平 均 乘 机 时 间 间 隔 、 平 均 折扣 率 、 积 分 多 换 次 数 、 非 乘机 积分 总 和 、 单 位 里 程 票 价 、 单 位 里 程 
积分 等 。 随 机 选取 数据 的 80% 作 为 分 类 的 训练 样本 ， 剩 余 的 20% 作 为 测试 样本 。 构 建 客户 的 流失 模型 ， 运 用 模型 预测 未 来 客户 的 类 别 归 属 (未 流失 、 准 流失 ， 或 已 流失 ) 。 


95 小结 


本 章 结合 航空 公司 客户 价值 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 K-Means 聚 类 算法 在 实际 案例 中 的 应 用 。 针 对 客户 价值 识别 传统 RF M 模 型 的 不 足 ， 即 依据 属性 的 平均 值 进行 划分 ， 提 出 了 一 种 采用 
K-Means 算 法 进行 分 析 的 方法 ， 该 方法 对 客户 进行 价值 分 类 ， 可 以 在 有 效 识别 最 有 价值 客户 的 前 提 下 ， 降 低 营 销 成 本 。 本 章 详细 描述 了 数据 挖 扬 的 整个 过 程 ， 并 针对 其 中 的 K-Means 聚 类 分 析 进 行 了 上 机 实 
XS, 方便 读者 加 深 对 K-Means 算 法 的 理解 以 及 提高 应 用 算法 解决 实际 问题 的 能 力 。 


第 10 草 ”基站 定位 数据 商 圈 分 析 


10.1 背景 与 挖掘 目标 


随 着 当今 个 人 手机 终端 的 普及 ， 出 行 群体 中 手机 拥有 率 和 使 用 率 已 达到 相当 高 的 比例 ， 手 机 移动 网 络 也 基本 实现 了 城乡 空间 区 域 的 全 覆盖 。 根 据 手机 信号 在 真实 地 理 空间 上 的 履 盖 情况 ， 将 手机 用 户 时 
间 序 列 的 手机 定位 数据 ， 映 射 至 现实 的 地 理 空 间 位 置 ， 即 可 完整 、 客 观 地 还 原 出 手机 用 户 的 现实 活动 轨迹 ， 从 而 挖掘 出 人 口 空间 分 布 与 活动 联系 特征 信息 。 移 动 通信 网 络 的 信号 覆盖 从 逻辑 上 被 设计 成 由 若 
干 六 边 形 的 基站 小 区 相互 邻接 而 构成 的 蜂窝 网 络 面 状 服务 区 ， 如 图 10-1 所 示 。 手 机 终端 总 是 与 其 中 某 一 个 基站 小 区 保持 联系 ， 移 动 通信 网 络 的 控制 中 心 会 定期 或 不 定期 地 主动 或 被 动 地 记录 每 个 手机 终端 时 
间 序 列 的 基站 小 区 编号 信息 。 


—— 增加 任意 数量 分 布 基站 


P wati 人 


图 10-1 菜市 移动 基站 分 布 图 


商 圈 是 现代 市 场 中 企业 市 场 活动 的 空间 ， 最 初 是 站 在 商品 和 服务 提供 者 的 产地 角度 提出 来 的 ， 后 来 逐渐 扩展 到 商 圈 ， 同 时 也 是 商品 和 服务 享用 者 的 区 域 。 商 圈 划 分 的 目的 之 一 是 研究 潜在 顾客 的 分 布 ， 
以 制定 适宜 的 商业 对 策 。 


从 某 通 信 运 营 商 提供 的 特定 接口 解析 得 到 用 户 的 定位 数据 ， 见 表 10-1， 定 位 数据 各 属性 如 表 10-2 所 示 。 定 位 数据 以 基站 小 区 进行 标识 ， 利 用 基站 小 区 的 覆盖 范 围 作为 商 圈 区 域 的 划分 ， 那 么 如 何 科 学 地 
分 析 用 户 的 历史 定位 数据 ， 归 纳 出 商 圈 的 人 流 特征 和 规律 ， 识 别 出 不 同类 别 的 商 圈 ， 选 择 合适 的 区 域 进行 运营 商 的 促销 活动 呢 ? 


表 10-1 某 市 某 区 域 的 定位 数据 示例 


年 | 月 | 日 | 时 | 分 | 各 网 络 类 型 | 。 LOC 编号 EMASIS | OXE 

ENENENESESESEENEM 962947809921085 36902 55555 333789CA 
2014 (1|1]|0[|3 4 |38| 2 | 281335167708768 36908 55555 333333CA 
2014 (1|1]0[|m]|25|46| 3 | 187655709192839 36911 55558 333477CA 

1 fifo fs j4a/a3f 3 | 232648776184248 36908 55561 333381CA 
2014 FSFCESETESES NC 611763545227777 36906 55563 333405CA 
2014 |1|1j]0/|1/[|40|]3| 2 | 447 10067012246 36909 55563 333717CA 
2014 HAAR 975579082112825 36912 55563 333981 CA 
2014 (1|1]|0[|sÓ)|3|8| 2 | 820798260690697 36906 55564 333861 CA 
2014 ailen ZA 5 | 380420663155326 36910 55564 334149CA 
2014 [1 |1]0][|43|38|95 | 2 | 897743952380637 36903 55565 334053 CA 
2014 [1|1]|0/|4039|8| 3 | 7115693027472 36910 55565 333453CA 
2014 mi |a lo iole 3 | 113404095624425 36911 55565 334125CA 
2014 111olsl2l24 3 | 393808837659011 36905 55566 334077CA 


表 10-2 定位 数据 属性 列表 


[a |n ë [|e 
De [€ |o 


— 


2 代表 2G，3 代表 3G, 4 代表 4G 

15 位 字符 串 

基站 ID, 15 位 字符 串 

需要 关联 用 户 表 取 用 户 号 码 (用户 号 码 需 要 
关联 用 户 表 得 到 用 户 ID ) 

小 于 15 个 字符 
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本 次 数据 挖掘 建 模 目标 如 下 : 
1) 对 用 户 的 历史 定位 数据 ， 采 用 数据 挖掘 技术 ， 对 基站 进行 分 群 ; 


2) 分 析 不 同 商 圈 分 群 的 特征 ， 比 较 不 同 商 圈 类 别 的 价值 ， 选 择 合适 的 区 域 进行 运 莒 商 的 促销 活动 。 


第 10 草 ”基站 定位 数据 商 圈 分 析 


10.1 背景 与 挖掘 目标 


随 着 当今 个 人 手机 终端 的 普及 ， 出 行 群体 中 手机 拥有 率 和 使 用 率 已 达到 相当 高 的 比例 ， 手 机 移动 网 络 也 基本 实现 了 城乡 空间 区 域 的 全 覆盖 。 根 据 手机 信号 在 真实 地 理 空间 上 的 覆盖 情况 ， 将 手机 用 户 时 
间 序 列 的 手机 定位 数据 ， 映 射 至 现实 的 地 理 空 间 位 置 ， 即 可 完整 、 客 观 地 还 原 出 手机 用 户 的 现实 活动 轨迹 ， 从 而 挖掘 出 人 口 空间 分 布 与 活动 联系 特征 信息 。 移 动 通信 网 络 的 信号 覆盖 从 逻辑 上 被 设计 成 由 若 
干 六 边 形 的 基站 小 区 相互 邻接 而 构成 的 蜂窝 网 络 面 状 服务 区 ， 如 图 10-1 所 示 。 手 机 终端 总 是 与 其 中 某 一 个 基站 小 区 保持 联系 ， 移 动 通信 网 络 的 控制 中 心 会 定期 或 不 定期 地 主动 或 被 动 地 记录 每 个 手机 终端 时 
间 序 列 的 基站 小 区 编号 信息 。 


商 圈 是 现代 市 场 中 企业 市 场 活动 的 空间 ， 最 初 是 站 在 商品 和 服务 提供 者 的 产地 角度 提出 来 的 ， 后 来 逐渐 扩展 到 商 圈 ， 同 时 也 是 商品 和 服务 享用 者 的 区 域 。 商 圈 划 分 的 目的 之 一 是 研究 潜在 顾客 的 分 布 ， 


图 10-1 菜市 移动 基站 分 布 图 


以 制定 适宜 的 商业 对 策 。 


从 某 通 信 运 营 商 提供 的 特定 接口 解析 得 到 用 户 的 定位 数据 ， 见 表 10-1， 定 位 数据 各 属性 如 表 10-2 所 示 。 定 位 数据 以 基站 小 区 进行 标识 ， 利 用 基站 小 区 的 覆盖 范围 作为 商 圈 区 域 的 划分 ， 


分 析 用 户 的 历史 定位 数据 ， 归 纳 出 商 圈 的 人 流 特 征 和 规律 ， 识 别 出 不 同类 别 的 商 圈 ， 选 择 合适 的 区 域 进行 运营 商 的 促销 活动 呢 ? 


年 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 


表 10-1 某 市 某 区 域 的 定位 数据 示例 


CnIu[w[s|[ee|msxm| iocus | wwe | EMASIS 
rea ots [e| 2 oeoo | sex | sss — 
ENERKEREREIEJEEREET T CRECEN 
"epi fo far fas [as | we | xen | sew — 
ah els [ole | 3 [sna | xex | sse — 
ol Pao [ar [2 [enos | xe» | sse 
ra fo [ar fae [| 2 [ossos | xmi | sse 
Pra [ro [se fas [a [2 eooo | 3e | ss6r — 
Pepa fo fafa [ar [3 [rons | 30 | sse 
"epi fo [as pm os| 2 [oroso | 3m | sse 
cpa [0 [ao m [m| 3 [msewnen | sme | ss 
Pepa fo [a foo foe 3 [oos | xen | ses 
ENNENENEXEIENEEREE 7 T8 MM 


表 10-2 ”定位 数据 属性 列表 


信 令 类 型 
333789CA 
333333CA 
333477CA 
333381CA 
333405CA 
333717CA 
333981CA 
333861CA 
334149CA 
334053CA 
333453CA 
334125CA 
334077CA 


那么 如 何 科学 地 


属性 编码 属性 名 称 数据 类 型 备注 


e a fe —— 

| 

| 

| 

Dome Dag | 

8 网 络 类 型 —— 2 代表 2G,， 3 代表 3G，4 代表 4G 

10 cell id : string 基站 ID, 15 位 字符 是 

1 — EMASI = "m 需要 关联 用 户 表 取 用 户 号 码 (用户 号 码 需 要 


关联 用 户 表 得 到 用 户 ID) 
12 信念 类 型 小 于 1 个 字符 


本 次 数据 挖掘 建 模 目标 如 下 : 


1) 对 用 户 的 历史 定位 数据 ， 采 用 数据 挖掘 技术 ， 对 基站 进行 分 群 ; 


2) 分 析 不 同 商 圈 分 群 的 特征 ， 比 较 不 同 商 圈 类 别 的 价值 ， 选 择 合适 的 区 域 进 行 运 言 商 的 促销 活动 。 


10.2 分 析 万 法 与 过 程 


手机 用 户 在 使 用 短信 业务 、 通 话 业务 、 开 关机 、 正 常 位 置 更 新 、 周 期 位 置 更 新 和 切入 呼叫 时 均 产 生 定 位 数据 ， 定 位 数据 记录 手机 用 户 所 处 基站 的 编号 、 时 间 和 唯一 标识 用 户 的 EMASs|I 号 等 。 历 史 定 位 数 
所 描绘 了 用 户 的 活动 模式 ， 一 个 基站 覆盖 的 区 域 可 等 价 于 商 圈 ， 通 过 归纳 经 过 基站 覆盖 范围 的 人 口 特征 ， 识 别 出 不 同类 别 的 基站 范围 ， 即 可 等 同 地 识别 出 不 同类 别 的 商 圈 。 因 为 衡量 区 域 的 人 口 特征 可 从 人 
流量 和 人 均 停留 时 间 的 角度 分 析 ， 所 以 在 归纳 基站 特征 时 ， 可 针对 这 两 个 特点 进行 提取 。 


由 图 10-2 知 ， 基 于 移动 基站 定位 数据 的 商 圈 分 析 主 要 包括 以 下 步 又: 
1) 从 移动 通信 运营 商 提供 的 特定 接口 上 解析 、 处 理 ， 并 滤 除 用 户 属性 后 得 到 用 户 定 位 数据 ， 
2) 以 单个 用 户 为 例 ， 进 行 数据 探索 分 析 ， 研 究 在 不 同 基站 的 停留 时 间 ， 并 进一步 进行 预 处 理 ， 包 括 数据 规约 和 数据 变换 ， 


3) 利用 2) 形成 的 已 完成 数据 预 处 理 的 建 模 数据 ， 基 于 基站 覆盖 学 围 区 域 的 人 流 特 征 进 行商 圈 聚 类 ， 分 析 各 个 商 圈 分 群 的 特征 ， 选 择 合 适 的 区 域 进行 运营 商 的 促销 活动 。 


数据 探索 与 预 处 理 


数据 规约 


DE RE 


"EE 
zn 


3 > 


图 10-2 ”基于 基站 定位 数据 的 商 圈 分 析 流 程 


10.2.1 数据 抽取 


从 移动 通信 运 莒 商 提供 的 特定 接口 上 解析 、 处 理 ， 并 滤 除 用 户 属性 后 得 到 位 置 数据 ， 以 2014-1-1 为 开始 时 间 ， 以 2014-6-30 为 结束 时 间作 为 分 析 的 观测 窗口 ， 抽 取 观 测 窗 口内 某 市 某 区 域 的 定位 数据 形 
成 建 模 数据 ， 部 分 数据 见 表 10-1。 


10.2.2 ”数据 探索 分 析 


为 了 便于 观察 数据 ， 先 提取 EMASI 号 为 55555 的 用 户 在 2014 年 1 月 1 日 的 定位 数据 ， 如 表 10-3 所 示 。 可 以 发 现 该 用 户 在 2014 年 1 月 1 日 00: 31: 48 处 于 36908 基 站 的 范围 ， 下 一 个 记录 是 该 用 户 在 2014 年 
1 月 1 日 00: 53: 46 处 于 36902 基 站 的 范围 ， 这 表明 了 用 户 从 00: 31: 48 到 00: 53: 46 都 处 于 36908 基 站 ， 共 停留 了 21 分 58 秒 ， 并 且 在 00: 53: 46 进 入 了 36902 基 站 的 范围 。 再 下 一 条 记录 是 用 户 在 2014 年 
1 月 1 日 01: 26: 11 处 于 36902 基 站 的 范围 ， 这 可 能 是 由 于 用 户 在 进行 通话 或 者 其 他 产生 定位 数据 记录 的 业务 ， 此 时 的 基站 编号 未 发 生 改 变 ， 用 户 仍 处 于 36902 基 站 的 范围 ， 若 要 计算 用 户 在 36902 基 站 范围 
停留 的 时 间 ， 则 需要 继续 判断 下 一 条 记录 ， 可 以 发 现 用 户 在 2014 年 1 月 1 日 02: 13: 46 处 于 36907 基 站 的 范围 ， 故 用 户 从 00: 53: 46 到 02: 13: 46 都 处 于 36902 基 站 ， 共 停留 了 80 分 。 停 留 示意 图 如 图 10-3 
所 示 。 


表 10-3 了 MASI 号 为 55555 的 用 户 在 2014 年 1 月 1 日 的 位 置 数据 


2 32 | 55555 
3 45 555114267094822 36908 333798CA 
0 35 482996504023472 36907 55555 333393CA 
26 329606106134793 36903 55555 333587CA 
645164951070747 36908 55555 333731CA 
323108074844193 36912 55555 334023CA 
wu[i[r|e|o[n|w | 2 553245971850183 | 36009 33395204 
noi pr[r[m[s[o| 3 | 2 | 75646566337600 | 36008 3 
2014 | 1 | 1 [23/28] 7 | 98 | 2 | 919108833174494 36904 55555 333500CA 


年 信念 类 型 
2014 333333CA 
2014 333789CA 
2014 SEIMEN 333334CA 
2014 333551CA 
2014 7 333796CA 

0 334109CA 
[45 
[26 


15 


ba 

D 

— 

发 
— — — — 


D w|i] he] & |] bo] lA 
C Oo 
t 


2014 年 1 月 1 日 2014 年 1 月 1 日 2014 年 1 月 1 日 20144E1H 1 H 20144E1H 1H 
00:31:48 00:53:46 01:26:11 02:13:46 07:57:18 
369083 yl 36902 基 站 36902 基 站 36907 基 站 36902 基 站 
36908 基 站 36902 基 站 36907 基 站 
停留 21 分 8 种 停留 80 分 保留 343 分 32 种 


图 10-3 ”停留 示意 图 


10.2.3 ”数据 预 处 理 


1 数据 规约 
原始 数据 的 属性 较 多 ， 但 网 络 类 型 、LOC 编 号 和 信和 令 类 型 这 三 个 属性 对 于 挖掘 目标 没有 用 处 ， 故 剔除 这 三 个 元 余 的 属性 。 而 衡量 用 户 的 停留 时 间 ， 并 不 需要 精确 到 毫秒 级 ， 故 可 把 毫秒 这 一 属性 删除 。 
同时 在 计算 用 户 的 停留 时 间 时 ， 只 计算 两 条 记录 的 时 间 差 ， 为 了 减少 数据 维度 ， 把 年 、 月 和 日 合并 记 为 日 期 ， 时 、 分 和 秒 合并 记 为 时 间 ， 则 表 10-3 可 处 理 得 到 表 10-4。 


表 10-4 ”数据 规约 后 的 数据 


36912 55555 
22:35:00 55555 


2014 £1 H 1 
2014 £1 H1 
2014 £1 H 1 
2014 年 1 月 1 


H EIF 
H , 26: 47 
H 19: 00: 2 
H 9: 50: 
H 39: 
H 3:28: 


2014 4E 1 H 1 


2. 数 据 变换 


挖 握 的 目标 是 寻找 出 高 价值 的 商 圈 ， 需 要 根据 用 户 的 定位 数据 提取 出 衡量 基站 覆盖 范围 区 域 的 人 流 特征 ， 如 人 均 停 留 时 间 和 人 流量 等 。 高 价值 的 商 圈 具有 人 流量 大 ， 人 均 停留 时 间 长 的 特点 ， 但 是 在 写 
字 楼 工作 的 上 班 族 在 白天 所 处 的 基站 范围 基本 固定 ， 停 留 时间 也 相对 较 长 ， 晚 上 住宅 区 的 居民 所 处 的 基站 范围 基本 固定 ， 停 留 时 间 也 相对 较 长 ， 仪 通过 停留 时 间作 为 人 流 特 征 难 以 区 分 高 价值 商 图 和 写字 楼 
与 住宅 区 ， 所 以 提取 出 来 的 人 流 特 征 必须 能 较为 明显 地 区 别 这 些 基站 学 围 。 下 面 设 计 工 作 日 上 班 时 间 人 均 停留 时 间 、 凌 晨 人 均 停留 时 间 、 周 末 人 均 停留 时 间 和 日 均 人 流量 作为 基站 履 盖 范围 区 域 的 人 流 特 
征 。 

工作 日 上 班 时 间 人 均 停留 时 间 是 所 有 用 户 在 工作 日 上 班 时 间 处 在 该 基站 范围 内 的 平均 时 间 ， 居 民 一 般 的 上 班 工作 时 间 是 在 9: 002818: 00， 所 以 工作 日 上 班 时 间 人 均 停留 时 间 是 计算 所 有 用 户 在 工作 日 
9: 002818: 00 处 在 该 基站 范围 内 的 平均 时 间 ，。 

凌晨 人 均 停留 时 间 是 指 所 有 用 户 在 00: 002807: 00 处 在 该 基站 范围 内 的 平均 时 间 ， 一 般 居 民 在 00: 002207: 00 都 是 在 住处 休息 ， 利 用 这 个 指标 可 以 表征 出 住宅 区 基站 的 人 流 特征 。 

周末 人 均 停留 时 间 是 指 所 有 用 户 周末 处 在 该 基站 范围 内 的 平均 时 间 ， 高 价值 商 圈 在 周末 的 竹 街 人 数 和 时 间 都 会 大 幅 增 加 ， 利 用 这 个 指标 可 以 表征 出 高 价值 商 圈 的 人 流 特 征 。 

日 均 人 流量 是 指 平均 每 天 曾经 在 该 基站 范围 内 的 人 数 ， 日 均 人 流量 大 ,说 明 经 过 该 基站 区 域 的 人 数 多 ， 利 用 这 个 指标 可 以 表征 出 高 价值 商 圈 的 人 流 特 征 。 

这 4 个 指标 直接 从 原始 数据 计算 比较 复杂 ， 需 先 处 理 成 中 间 过 程 数据 ， 再 从 中 计算 出 这 4 个 指标 。 


中 间 过 程 数据 的 计算 以 单个 用 户 在 一 天 内 的 定位 数据 为 基础 ， 计 算 在 各 个 基站 范围 下 的 工作 日 上 班 时 间 停 留 时 间 、 凌 晨 停 留 时 间 、 周 末 停 留 时 间 和 是 否 处 于 基站 范围 。 假 设 原始 数据 所 有 用 户 在 观测 窗 
口 期 间 (LA) 曾经 经 过 的 基站 有 N 个 ， 用 户 有 M 个 ， 用 户 i 在 j 天 经 过 的 基站 有 num1、num2 和 num3， 则 用 户 i 在 num1 基 站 的 j 个 工作 日 上 班 时 间 停 留 时 间 为 weekday_num1ij， 在 num2 基 站 的 工作 日 上 班 


时 间 停 留 时 间 为 weekday_num2ij， 在 num3 基 站 的 工作 日 上 班 时 间 停 留 时 间 为 weekday_num3ij; 在 num1 基 站 的 凌晨 停留 时 间 为 night num1ij， 在 num2 基 站 的 凌晨 停留 时 间 为 night_num2ij， 在 num3 基 
站 的 凌晨 停留 时 间 为 night_num3ij; 在 num1 基 站 的 周末 停留 时 间 为 weekend_num1ij， 在 num2 基 站 的 周末 停留 时 间 为 weekend_num2ij， 在 num3 基 站 的 周末 停留 时 间 为 weekend_num3i; 在 num1 基 
站 是 否 停留 为 stay_num1ij， 在 num2 基 站 是 否 停留 为 stay_num2ij， 在 num3 基 站 是 否 停留 为 stay_ num3ij， 其 中 stay_num1i、stay_num2i 和 stay_num3i 的 值 均 为 1， 对 于 未 停留 的 其 他 基站 ， 工 作 日 上 班 
时 间 停 留 时 间 、 凌 晨 停 留 时 间 、 周 末 停 留 时 间 和 是 否 处 于 基站 范围 的 值 均 为 0。 


对 于 num1 基 站 ，4 个 基站 覆盖 范围 区 域 的 人 流 特征 的 计算 公式 如 下 : 


L 
1 
weekday, = m?) > weekday_numl , 


* 工作 日 上 班 时 间 人 均 停留 时 间 : LM 
1 L M 

NAL um = 74 night numl , 
凌晨 人 均 停留 时 间 : LM ud 2 


1 L M 
weekend, = 一 一 Y 2. weekend. numl , 
. 周末 人 均 停 留 时 间 : EULE | 


M 


1 L 
SLAY numi = TA * stay num], 
j=1 i=l 


“日 均 人 流量 : 
对 于 其 他 基站 ， 计 算 公式 一 致 。 
对 采集 到 的 数据 ， 按 基站 覆盖 范围 区 域 的 人 流 特征 计算 得 到 各 个 基站 的 样本 数据 ， 见 表 10-5。 


表 10-5 样本 数据 


基站 编号 凌晨 人 均 停留 时 间 日 均 人 流量 
36905 596 695 1054 
36906 190 527 2051 
36907 403 470 2487 
36910 575 667 933 
36911 476 658 2352 
36912 438 477 861 
37337 478 688 1338 
38015 538 636 960 
38953 469 497 1059 
35390 429 435 2741 
36453 482 479 1913 


iR: 数据 详 见 01- 示 例 数 据 / 基 站 样本 数据 .xls。 
但 由 于 各 个 属性 之 间 的 差异 较 大 ， 为 了 消除 数量 级 数据 带 来 的 影响 ， 在 进行 聚 类 前 ， 需 要 进行 离 差 标准 化 处 理 ， 离 差 标准 化 后 的 样本 数据 见 表 10-6。 


表 10-6 标准 化 后 的 样本 数据 


标准 化 后 工作 日 上 班 时 间 标准 化 后 凌晨 标准 化 后 周末 标准 化 后 


基站 编写 人 均 停 留 时 间 日 均 人 流量 


人 均 停 留 时 间 人 均 停留 时 间 


(5x) 


标准 化 后 工作 日 上 班 时 间 标准 化 后 凌晨 标准 化 后 周末 标准 化 后 


iiaii 人 均 停留 时 间 人 均 停留 时 间 人 均 停留 时 间 日 均 人 流量 


ik: 数据 详 见 01- 示 例 数 据 /标准 化 后 样本 数据 .xls。 


10.24 构建 模型 
1. 构 建 商 团聚 类 模型 


数据 经 过 预 处 理 过 后 ， 形 成 建 模 数据 。 利 用 TipDM-HB 大 数据 挖掘 平台 的 DBSCAN 聚 类 算法 对 基站 数据 进行 聚 类 分 群 。 


登录 TipDM-HB 大 数据 挖掘 平台 后 ， 新 建 方案 ， 接 着 导入 数据 。 导 入 的 数据 为 “01- 示 例 数 据 / 标 准 化 后 样本 数据 .csv” ， 数 据 加 载 完 成 后 ， 刷 新 即 可 看 到 数据 。 调 用 TipDM-HB 大 数据 挖掘 平台 的 云 聚 
类 算法 时 ， 导 入 的 数据 列 属性 为 : “标准 化 后 工作 日 上 班 时 间 人 均 停 留 时 间 、 标 准 化 后 凌晨 人 均 停 留 时 间 、 标 准 化 后 周末 人 均 停留 时 间 、 标 准 化 后 日 均 人 流量 ”， 参 数 设 置 为 : 设置 “距离 计算 方法 ”为 欧 
氏 距 离 ，“ 收 敛 系 数 ” 为 0.5，“ 阅 值 ”为 0.5，“ 最 大 迭代 次 数 ” 为 5，“ 分 群 数 量 ” 为 3，“Canopy t1” 为 10，“Canopy t2” 为 5。 


TipDM-HB 数 据 挖掘 平台 聚 类 完成 后 ， 可 以 在 右边 界面 看 到 输出 信息 ， 如 表 10-7 所 示 。 


表 10-7 TipDM-HB 数 据 挖 气 平 台 云 聚 类 算法 聚 类 输出 结果 


— — ooo 
标准 化 后 工作 日 上 班 时 间 人 均 停 留 时 间 ”标准 化 后 凌晨 人 均 停 留 时 间 ”标准 化 后 周末 人 均 停 留 时 间 ”标准 化 后 日 
IAME 


0.189 0.802 0.763 0.091 
0.864 0.048 0.121 0.329 
0.132 0.045 0.200 0.710 

== RRA BRIT === 


Fit PEARL A Ay EG 
0 148 (34% ) 
| 137(32% ) 
2 146 (34% ) 


对 数据 进行 整理 ， 可 以 得 到 如 表 10-8 所 示 的 结果 。 


表 10-8 聚 类 结果 


聚 类 中 心 
聚 类 类 别 | 聚 类 个 数 | 标准 化 后 工作 日 上 班 标准 化 后 凌晨 标准 化 后 周末 标准 化 后 
时 间 人 均 停 留 时 间 人 均 停 留 时 间 人 均 停 留 时 间 日 均 人 流量 


阐 圈 类 别 1 0. 189 0. 802 0. 763 0. 09] 


针对 聚 类 结果 按 不 同类 别 画 出 4 个 特征 的 折线 图 ， 如 图 10-4~ 图 10-6 所 示 。 对 于 商 圈 类 别 1， 凌 晨 人 均 停 留 时 间 和 周末 人 均 停留 时 间 相 对 较 长 ， 而 工作 日 上 班 时 间 人 均 停留 时 间 较 短 ， 日 均 人 流量 较 少 ， 


该 类 别 基站 履 盖 的 区 域 类 似 于 住宅 区 。 对 于 商 圈 类 别 2， 这 部 分 基站 覆 盖 范 围 的 工作 日 上 班 时 间 人 均 停 留 时 间 较 长 ， 同 时 凌晨 人 均 停留 时 间 、 周 末 人 均 停 留 时 间 相对 较 短 ， 该 类 别 基站 履 盖 的 区 域 类 似 于 白领 
上 班 族 的 工作 区 域 。 对 于 商 圈 类 别 3， 日 均 人 流量 较 大 ， 同 时 工作 日 上 班 时 间 人 均 停 留 时 间 、 凌 晨 人 均 停留 时 间 和 周末 人 均 停 留 时 间 相 对 较 短 ， 该 类 别 基 站 覆盖 的 区 域 类 似 于 商业 区 。 
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商 圈 类 别 1 的 人 流量 较 少 ， 商 圈 类 别 2 的 人 流量 一 般 ， 而 且 白 领 上 班 族 的 工作 区 域 一 般 的 人 员 流 动 集中 在 上 下 班 时 间 和 午间 吃饭 时 间 ， 这 两 类 商 圈 均 不 利于 运营 商 促销 活动 的 开展 ， 商 圈 类 别 3 的 人 流量 
大 ， 在 这 样 的 商业 区 有 利于 进行 运营 商 的 促销 活动 。 


10.3 上 机 实验 


1. 实 验 目的 
© 加 深 对 聚 类 算法 原理 的 理解 及 使 用 。 
"了解 聚 类 算法 在 商 圈 分 析 实例 中 的 应 用 。 


掌握 使 用 聚 类 算法 解决 实际 问题 的 方法 。 


对 采集 到 的 数据 ， 按 基站 履 盖 范围 区 域 的 人 流 特 征 计算 得 到 各 个 基站 的 样本 数据 。 但 为 了 避免 单个 特征 的 值 过 大 影响 聚 类 效果 ， 需 要 先 对 数据 进行 离 差 标准 化 ， 再 采用 云 聚 类 实现 商 圈 聚 类 ， 并 分 析 
RE Ro 
3. 实 验方 法 与 步骤 
登录 TipDM-HB 数 据 挖掘 平台 后 ， 执 行 以 下 步骤 。 
(1) 数据 准备 
下 载 “ 上 机 实验 /标准 化 后 样本 数据 .csv” ， 该 数据 如 表 10-6 所 示 。 
(2) 创建 方案 
登录 TipDM-HB 数 据 挖 掘 平 台 ， 在 “方案 管理 ”页 面 选 择 “ 聚 类 分 析 ” 创 建 一 个 新 方案 。 
方案 名 称 : 基于 聚 类 分 析 的 商 圈 分 析 。 


方案 描述 : 通过 提取 基站 定位 数据 的 基站 履 盖 学 围 区域 的 人 流 特 征 : 工作 日 上 班 时 间 人 均 停 留 时 间 、 凌 晨 人 均 停 留 时 间 、 周 末 人 均 停 留 时 间 和 日 均 人 流量 ， 利 用 云 聚 类 分 析 来 进行 商 圈 聚 类 ， 以 区 别 不 
同 价值 的 商 圈 。 


(3) 上 传 数据 


进入 “数据 管理 ”标签 页 ， 选 择 下载 的 数据 并 上 传 ， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 “刷新 ”按钮 刷新 数据 。 因 为 这 里 上 传 的 数据 是 标准 化 后 的 数据 ， 所 以 其 属性 名 已 经 做 了 修改 。 


(4) 聚 类 分 析 
选择 “系统 菜单 ”一 “ 云 算法 ”一 “ 云 聚 类 算法 ”。 


1) 导入 数据 : 选择 “标准 差 处 理 后 数据 .csv” 文 件 ， 选 择 “ 标 准 化 后 工作 日 上 班 时 间 人 均 停 留 时 间 、 标 准 化 后 凌晨 人 均 停留 时 间 、 标 准 化 后 周末 人 均 停 留 时 间 、 标 准 化 后 日 均 人 流量 ”属性 列 ， 单 
击 “导入 数据 ”按钮 。 


2) 参数 设置 : 设置 “距离 计算 方法 ”为 欧 氏 距离 ，“ 收 敛 系数 ”为 0.5，“ 阅 值 ” 为 0.5，“ 最 大 和 迭代 次 数 ” 为 5， 分 群 数量 为 3，“Canopy t1” 为 10，“Canopy t2” 为 5。 
3) 聚 类 分 析 : 对 导入 的 样本 数据 进行 聚 类 分 析 ， 查 看 页 面 右 侧 的 输出 信息 。 

4. 思 考 与 实验 总 结 
1) 使 用 云 平 台 其 他 聚 类 算法 来 对 数据 进行 聚 类 分 析 ， 对 比分 析 结 果 。 


2) 当 数 据 量 达到 多 少 ， 云 平台 的 处 理 优势 才能 体现 ? 


10.4 ”拓展 思 


轨迹 控 扬 可 以 定义 为 从 移动 定位 数据 中 提取 隐 合 的 、 人 们 预先 不 知道 的 ， 但 又 潜在 有 用 的 移动 轨迹 模式 的 过 程 。 轨 迹 挖掘 可 应 用 到 多 个 重要 领域 ， 如 社交 网 络 、 公 共 安 全 、 智 能 交通 管理 、 城 市 规划 与 
发 展 等 。 面 向 拼车 推荐 应 用 是 轨迹 挖掘 的 新 兴 研 究 主 题 。 拼 车 是 指 相同 路 线 的 人 乘坐 同一 辆 车 上 下 班 、 上 学 及 放学 回 家 、 节 假日 出 游 等 ， 车 费 由 乘客 平均 分 挫 。 拼 车 不 仅 能 节省 出 行 费用 ， 而 且 有 利于 绥 解 
城市 交通 。 现 在 大 部 分 拼车 网 站 的 普遍 做 法 仍然 是 通过 拼车 司机 在 拼车 服务 网 站 上 发 布 出 发 地 、 目 的 地 、 出 发 时 间 等 信息 ， 再 由 拼车 客户 在 网 站 上 输入 出 发 地 和 目的 地 来 搜索 符合 自己 情况 的 拼车 对 象 。 这 
在 很 大 程度 上 浪费 了 拼车 用 户 在 网 上 搜索 拼车 伙伴 的 时 间 ， 使 用 户 的 拼车 体验 变 差 。 而 面向 拼车 推荐 应 用 需要 先 挖 握 用 户 的 定位 数据 轨迹 ， 发 现 用 户 的 轨迹 模式 集合 ， 再 根据 两 个 用 户 之 间 移 动 轨迹 模式 的 
相似 性 ， 推 荐 合适 的 拼车 路 线 。 


10.5 ”小结 


本 章 结合 基于 基站 定位 数据 的 商 圈 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 聚 类 算法 在 实际 案例 中 的 应 用 。 研 究 用 户 的 定位 数据 ， 总 结 出 人 流 特征 ， 并 采用 云 平台 聚 类 算法 进行 商 圈 聚 类 ， 识 别 出 不 同 
类 别 的 商 圈 ， 最 后 选择 合适 的 区 域 进行 运营 商 的 促销 活动 。 案 例 详细 描述 了 数据 挖掘 的 整个 过 程 ， 并 提供 了 云 平台 聚 类 算法 的 上 机 实验 ,方便 读 者 加 深 对 该 算法 的 理解 以 及 提高 应 用 算法 解决 实际 问题 的 能 
73. 
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11.1 背景 与 挖掘 目标 


随 着 信息 技术 的 发 展 ， 互 联网 视频 内 容 充 奈 了 整个 网 络 ， 视 频 网 站 上 存 有 大 量 的 电影 内 容 ， 如 果 用 户 通 过 翻 页 的 方式 来 寻找 自己 想 看 的 电影 可 能 会 感到 疲劳 甚至 放弃 观看 ， 虽然 很 多 视频 网 站 都 有 搜索 
引擎 可 供用 户 直 接 搜索 目标 电影 ， 但 这 类 搜索 是 针对 有 明确 目标 的 用 户 ， 对 于 无 明确 观看 目标 的 用 户 而 言 ， 急 需 一 种 能 使 用 户 发 现 可 能 想 看 的 电影 的 工具 。 推 荐 系统 的 任务 就 是 联系 用 户 和 内 容 ， 一 方面 帮 
助 用 户 发 现 自己 喜欢 的 内 容 ， 另 一 方面 让 电影 内 容 能 够 展现 在 对 它 感 兴趣 的 用 户 面前 ， 从 而 实现 内 容 提供 商 和 用 户 间 的 双赢 。 推 荐 系统 通过 分 析 用 户 对 电影 的 评分 行为 ， 对 用 户 兴趣 建 模 ， 从 而 预测 用 户 的 
兴趣 并 给 用 户 做 推荐 。 近 年 来 ， 以 Netflix 为 首 的 视频 提供 商 纷纷 实现 了 个 性 化 智能 推荐 功能 ，Netflix 60% 的 内 容 通 过 推荐 获取 。 优 酷 士 豆 、 爱 奇 艺 、 乐 视 、CNTV 等 内 容 提供 商都 不 同 程度 地 实现 了 个 性 化 
推荐 。 


智能 推荐 系统 是 数据 挖掘 的 一 个 重要 应 用 ， 在 网 络 中 已 经 有 很 多 应 用 的 学 例 ， 互 联网 视频 的 崛起 为 这 一 技术 提供 了 新 的 应 用 领域 。 所 谓 互联 网 电影 推荐 系统 ， 就 是 运用 数据 挖掘 的 方法 实现 对 用 户 行为 
分 析 ， 把 合适 的 电影 内 容 推 荐 给 喜欢 它 的 用 户 。 


表 11-1 给 出 了 某 视 频 网 站 的 用 户 对 电影 的 评分 数据 ， 包 含 用 户 对 不 同 电 影 的 评分 数据 ， 见 表 11-1。 评 分 的 取 值 范围 为 1~10， 评 分 越 高 ， 表 明 用 户 对 电影 的 评价 越 高 。 根 据 这 些 数据 ， 利 用 智能 推荐 技 
术 ， 实 现 电影 智能 推荐 。 


表 11-1 用 户 对 不 同 电 影评 分 数据 
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l 21184 13895 5 
| 35707 27357 10 
l 104944 52830 10 
l 109117 122500 3 
l 113261 192791 9 

120458 93172 8 
l 140278 126956 8 
] 150113 188927 7 
] 201897 41202 ] 
133 112897 5 
88419 162768 l 
129450 217222 5 


— 


Nm} NM |] r2 — 
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ik: 数据 详 见 01- 示 例 数 据 / 电 影评 分 数据 .txt。 
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表 11-1 用 户 对 不 同 电影 评分 数据 
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注 : 数据 详 见 01- 示 例 数据 /电影 评分 数据 .txt。 


11.2 “分析 方法 与 过 程 


本 案例 是 希望 给 用 户 推荐 互联 网 视频 ， 目 前 推荐 算法 有 基于 内 容 的 推荐 算法 、 协 同 过 滤 推 荐 算法 和 基于 网 络 结构 的 推荐 算法 等 。 基 于 内 容 的 推荐 算法 是 最 原始 的 推荐 算法 ， 它 主要 采用 内 容 过 滤 技 术 在 
大 量 项 目 中 过 滤 出 与 用 户 兴趣 相似 的 项 目 ， 从 而 推荐 给 用 户 。 其 主要 用 于 一 些 包含 文本 项 目的 推荐 系统 中 ， 如 新 闻 、 科 技 论文 等 系统 ， 也 可 以 用 于 包含 可 以 表示 成 文本 的 项 目的 推荐 系统 中 ， 如 电影 、 音 乐 


协同 过 滤 是 信息 过 滤 和 推荐 系统 领域 研究 最 多 的 算法 之 一 。 由 于 用 户 的 兴趣 不 是 孤立 的 ， 用 户 是 处 于 群体 之 中 的 ， 所 以 用 户 的 兴趣 可 以 通过 群体 中 与 他 有 相似 行为 的 用 户 的 兴趣 来 推测 ， 这 有 点 类 似 于 
现实 生活 中 的 朋友 推荐 。 


协同 过 滤 推 荐 的 主要 研究 方向 分 为 基于 内 存 的 算法 和 基于 模型 的 算法 两 类 ， 其 中 基于 内 存 的 协同 过 滤 推 荐 算法 按照 相似 度 比较 对 象 的 不 同 ， 又 可 分 为 基于 用 户 和 基于 项 目 两 种 ， 但 基于 用 户 的 协同 过 滤 
随 着 用 户 数 的 增加 ， 计 算 的 复杂 度 会 越 来 越 大 ， 因 此 基于 项 目的 协同 过 滤 应 用 相对 较 多 。 与 基于 内 存 的 协同 过 滤 推 荐 算法 不 同 的 是 ， 基 于 模型 的 协同 过 滤 推 荐 算法 不 是 基于 启发 式 规 则 预测 用 户 对 项 目的 评 
分 ， 而 是 基于 对 已 有 数据 采用 统计 和 机 器 学 习 的 方法 建立 模型 ， 利 用 建立 好 的 模型 进行 预测 评分 。 基 于 网 络 结构 的 推荐 算法 不 考虑 用 户 和 项 目的 内 容 特 征 信息 ， 而 把 它们 看 作 抽 象 的 节点 ， 所 有 的 算法 信息 
均 隐 藏 在 用 户 和 项 目的 选择 关系 中 。 


基于 项 目的 协同 过 滤 推 荐 算法 的 基本 思想 是 ， 用 户 项 目的 预测 评分 可 以 由 与 该 项 目 相似 度 最 高 的 k 个 邻居 项 目的 评分 加 权 平 均 计算 得 到 ， 如 图 11-1 所 示 ， 对 项 目 1 感 兴 趣 的 用 户 也 都 对 项 目 2~ 项 目 n 感 兴 
趣 ， 因 此 项 目 1 和 项 目 2~ 项 目 n 的 相似 度 较 高 ， 它 们 是 相似 项 目 ， 而 用 户 t 目 前 对 项 目 2~ 项 目 n 感 兴趣 ， 但 还 没 发 现 项 目 1， 因 此 可 将 项 目 1 推荐 给 用 户 t。 


LEUT 


图 11-1 基于 项 目的 协同 过 滤 推 荐 原理 图 
本 案例 的 数据 是 用 户 对 互联 网 电影 的 评分 数据 ， 可 考虑 基于 项 目的 协同 过 滤 进 行 互联 网 电影 推荐 。 图 11-2 为 基于 协同 过 滤 的 互联 网 电影 智能 推荐 建 模 过 程 ， 主 要 包括 以 下 步骤 : 
1) 从 视频 网 站 的 数据 库 中 选择 性 抽取 用 户 对 电影 的 评分 数据 和 电影 元 数据 ; 
2) 利用 用 户 对 电影 的 评分 数据 构造 用 户 -项 目 评分 矩阵; 
3) 利用 2) 形成 的 用 户 - 项 目 评分 矩阵， 计算 电影 项 目 之 间 的 相似 度 ; 


4) 利用 2) 的 用 户 -项 目 评分 矩阵 和 3) 的 电影 项 目 之 间 的 相似 度 ， 计 算 用 户 的 电影 项 目 评分 预测 ， 并 把 预测 评分 高 的 电影 项 目 作 为 推荐 结果 。 


数据 抽取 据 建 模 视频 推荐 


图 11-2 ”基于 协同 过 滤 的 互联 网 电影 智能 推荐 建 模 过 程 
11.2.1 数据 抽取 


用 户 对 电影 的 评分 数据 主要 包括 用 户 ID、 电 影 ID 和 用 户 对 电影 的 评分 ， 如 表 11-1 所 示 。 同 时 也 需要 采集 电影 元 数据 ， 包 括 电 影 ID、 电 影 名 称 、 演 员 、 导 演 、 类 型 、 国 家 、 语 言 、 年 代 等 ， 如 表 11-2 所 
示 。 以 上 所 有 数据 均 在 视频 网 站 的 数据 库 中 抽取 。 


表 11-2 ”电影 元 数据 


155 Mei if FEFA 爱情 片 /风月 片 
3452 金成 中 RIIE | AE 
897 eee WRR- REA | 肯特 Zam | 爱情 片 /科幻 片 
447 | EER T i 六 发 /部 上 古天乐 /李心洁 | 动作 片 /剧情 片 
D nai WE IR. | 爱情 片 7 喜 风 上 
4438 英 iB 路 易 - 马鞭 WHK AE | XH 

1513 E KE: 马 肯 慈 | 伊 万 . 麦 格 雷 | 剧情 片 /惊悚 片 
2346 ELLE ase 张家辉 /彭于晏 ”| 剧情 片 /动作 片 
4419. | 人 在 回 途 之 泰 四 EE CETT | 喜剧 片 /动作 片 
3896 | 神枪手 els 语 / 普 通 i 任贤齐 /黄晓明 | 剧情 片 /动作 片 


11.2.2 ”构建 模型 
1. 构 造 用 户 - 项 目 评分 矩阵 


用 户 对 项 目的 评分 包括 显 式 评 分 和 隐 式 评分 两 种 ， 显 示 评分 是 指 用 户 直接 对 项 目的 打分 ， 是 形成 评分 矩阵 的 主要 途径 ; 隐 式 评分 是 指 根据 用 户 的 历史 行为 记录 ， 如 浏览 频率 、 评 论 等 信息 间接 推测 出 的 
评分 。 综 合 两 类 评分 得 到 一 个 NxM 的 用 户 -项 目 评分 矩阵 R。 在 本 案例 中 抽取 到 的 电影 评分 数据 包含 显示 评分 ， 而 用 户 的 历史 行为 记录 没 被 抽取 ， 故 不 考虑 隐 式 评分 。 其 中 N 表 示 用 户 数目 ，M 表 示 电 影 数 
目 ， 横 向 量 代表 一 个 用 户 对 各 个 电影 项 目的 评分 ， 纵 向 量 代表 一 个 电影 项 目 得 到 各 个 用 户 的 评分 ， “表示 用 户 uj 对 电 昌 纪 的 评分 ， 若 用 户 ui 没 对 电影 v 评 分 ， 则 =0。 


Puy Pas luy; dic l uwy 


R = luy, e luy; Y rmm ( 11-1 ) 
ry NP] na ry NVj mE ry NUM NxM 


2. 计 算 相似 度 


相似 度 计 算是 协同 过 滤 推 荐 算法 最 核心 的 部 分 ， 这 里 采用 基于 项 目的 协同 过 滤 算 法 ， 考 虑 利用 两 个 电影 项 目 之 间 ， 所 有 用 户 对 这 两 个 电影 项 目的 评分 ， 建 立 电 影 vs 与 电影 vt 的 相似 度 如 下 : 


ET 


sim( v, T E 


r € Z 、 
其 中 “表示 用 户 uij 对 电影 v 的 评分 。 


3. 项 目 评分 预测 与 推荐 
计算 好 电影 项 目 两 两 之 间 的 相似 度 后 ， 对 于 目标 用 户 u 需要 预测 其 对 电影 v 的 评分 ， 利 用 k 近 邻 算法 思想 ， 给 电影 v 找到 与 其 相似 度 最 大 的 k 个 电影 作为 其 邻居 ， 目 标 用 户 u 对 电影 v 的 评分 可 以 根据 目标 


用 户 u 对 这 k 个 邻居 电影 的 评分 来 预测 。 


sim(p, P) X Pauly; 


p = ien(v' ,k) | : ( 11-3) 
> sim(v;,v') 
ie n(v' ,k) 


其 中 "表示 用 户 u 对 电影 v 的 预测 评分 ，n (V, k) 表示 电影 v 的 k 个 电影 邻居 的 下 标号 ，sim (vi, v) 表示 电影 vi 与 电影 v 的 相似 度 ， “i 表示 用 户 u' 对 电影 v 的 评分 


得 到 目标 用 户 u 对 未 评分 电影 的 评分 预测 值 后 ， 按 照 评 分 进行 降序 排序 ， 取 评分 最 大 的 若干 电影 作为 最 终 的 推荐 结果 。 

登录 TipDM-HB 数 据 挖 气 平 台 后 ， 新 建 云 方案 ， 接 着 管理 云 方案 数据 ， 导 入 的 数据 为 “01- 示 例 数 据 / 电 影评 分 数据 .txt” (这 里 也 可 以 使 用 FTP 数 据 自动 扫描 上 传 ， 此 属于 云 平台 数据 管理 特有 的 功 
86) ， 数 据 加 载 完 成 后 ， 刷 新 即 可 看 到 数据 。 调 用 TipDM-HB 数 据 挖 掘 平台 的 协同 过 滤 算 法 时 ， 直 接 选 择 导 入 的 数据 文件 即 可 ( 即 “ 电 影评 分 数据 .txt” 文 件 ) 。 参 数 设置 为 : “推荐 个 数 ” 为 3，“ 最 多 相 
似 项 目 ” 为 100，“ 最 小 评分 ”为 1，“ 最 大 相似 度 ” 为 10，“ 最 大 评分 ”为 10，“ 相 似 距 离 ” 为 欧 氏 距离 。 


TipDM -HB 数据 挖掘 平台 协同 过 滤 算 法 完成 后 ， 可 以 在 右边 界面 看 到 输出 信息 ， 如 表 11-3 所 示 。 


表 11-3 TipDM-HB 数 据 挖 据 平 台 协 同 过 滤 算 法 部 分 输出 信息 


1 [162155:8. 561002, ，56675: 8. 559533, 111832:8. 551345] 
4  [116580:7. 324454] 
7  [82645:1.0] 
9  [59434:10.0, 5574:10.0, 13754:10.0] 
15  [127432:10. 0, 206260: 10.0, 166613:10.0] 
17 [45523:6.015289, 22920: 5. 99866 | 
18 [ 118279: 6. 9066653, 187840:6. 2239604, 169385: 6. 2130904 ] 
21 [5730:5. 4776945 ] 
25 [ 157035: 4. 3233075 | 
26 [30858:10.0, 106963:10.0, 13843: 10.0] 
31  [197927:10.0, 20410:10.0, 182832: 10.01 
32 © [ 204302: 6. 730925 ] 
[ 191720: 9. 407126, 49142:9. 407039, 205657: 9. 0] 
35 [ 164736: 10.0, 165666: 8. 732799, 168536: 8. 634465 | 
[ 137881: 5. 990177 | 


39 ~=—s- | 94346: 10.0, 180645:10.0, 213766: 10. 0 | 
42 =| 18311: 4. 8491926, 113441: 4. 8442636, 
46 — | 46837: 5. 600557, 
55  [177229:6. 143647, 
63  |28130:8. 463275 | 
65 “| 186417: 9. 635464 , 


73  |74293:10.0, 


18007: 1. 5634073 | 


135683: 10.0, 92764: 10. 0 | 


£3 


36969: 4. 844106 | 
171397: 5. 5993614, 39439: 5. 5967846 | 


164804: 8. 001972, 64587: 8. 001897 | 


74 | [125662:7.604069, 71801:7. 6004744, 54741:2. 9958315 | 


80  [56501:4.0! 


ik: 数据 第 一 列 为 用 户 ID， 中 括号 里 面 是 对 当前 行 用 户 的 推荐 ， 冒 号 


表 11-3 的 输出 结果 如 表 11-4 所 示 ， 表 中 列 出 了 用 户 的 推荐 电影 和 评分 


前 面 是 项 目 ID， 后 面 是 该 项 目的 推荐 分 


表 11-4 用 户 推荐 结 


用 户 1 用 户 4 用 户 7 
gio oz 
162155 8. a 002 116580 82645 mE CM 50434 10. 0 
wes | 85959 | | | | | 5 —| 100 
111832 | 8551345 | | | | j| 1354 | 100 


推荐 结果 的 第 一 条 记录 说 明 可 以 给 用 户 1 推 荐 电影 162155、56675 和 111832， 电 影 162155 的 预测 评分 为 8.561002， 电 影 56675 的 预测 评分 为 8.559533， 电 影 111832 的 预测 评分 为 8.551345。 


推荐 结果 的 第 二 条 记录 说 明 可 以 给 用 户 4 推荐 电影 116580， 电 影 116580 的 预测 评分 为 7.324454。 


推荐 结果 的 第 三 条 记录 说 明 可 以 给 用 户 7 推荐 电影 82645， 电 影 82645 的 预测 评分 为 1.0。 从 这 条 记录 可 以 看 到 其 实 电影 82645 的 推荐 分 是 


使 用 Top 推 荐 。 


不 高 的 ， 这 样 进 行 的 推荐 可 能 不 是 用 户 感 兴趣 的 ， 所 以 可 以 考虑 


推荐 结果 的 第 四 条 记录 说 明 可 以 给 用 户 9 推荐 电影 59434、5574 和 13754， 电 影 59434 的 预测 评分 为 10.0， 电 影 5574 的 预测 评分 为 10.0， 电 影 13754 的 预测 评分 为 10.0。 


11.3 ”上 机 实验 


1. 实 验 目的 
* 了解 云 协同 过 滤 推 荐 算法 的 输入 与 输出 的 数据 形式 。 


- 掌握 云 协同 过 滤 推 荐 算法 的 特性 和 应 用 范围 及 使 用 云 协同 过 滤 推 荐 解决 实际 应 用 问题 的 方法 。 


:电影 评分 数据 体现 了 用 户 对 电影 的 喜好 ， 利 用 协同 过 滤 算 法 能 计算 出 用 户 未 评分 电影 的 预测 评分 


3. 实 验方 法 与 步骤 
登录 TipDM -HB 数据 挖掘 平台 后 ， 执 行 下 面 的 步骤 。 
(1) 数据 准备 
下 载 “02- 上 机 实验 /电影 评分 数据 .txt” ， 该 数据 如 表 11-1 所 示 。 
(2) 创建 方案 


登录 TipDM -HB 数据 挖掘 平台 ， 在 “方案 管理 ”页 面 选 择 “数值 预测 ”新 建 一 个 方案 。 


方案 名 称 : 基于 云 协同 过 滤 的 电影 智能 推荐 。 
方案 描述 : 通过 协同 过 渡 挖 所 用 户 的 电影 评分 数据 ， 估 计 出 用 户 未 评分 电影 的 评分 数 ， 对 评分 高 的 


(3) 上 传 数据 

进入 “ 非 结构 化 数据 管理 ”标签 页 ， 选 择 下 载 的 数据 并 上 传 (或 者 通过 FTP 上 传 ) 
(4) 协同 过 滤 推 荐 

选择 “系统 菜单 ”一 “ 云 算法 ”一 “ 云 推荐 ”。 


1) 导入 数据 : 选择 文件 “电影 评分 数据 .txt” 导 入 即 可 。 


， 根 据 预测 的 评分 可 把 高 评分 的 电影 推荐 给 用 户 


， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 


电影 进行 推荐 。 


“刷新 ”按钮 刷新 数据 。 


2) 参数 设置 : “推荐 个 数 ” 为 3，“ 最 多 相似 项 目 ” 为 100，“ 最 小 评分 ”为 1，“ 最 大 相似 度 ” 为 10，“ 最 大 评分 ”为 10，“ 相 似 距 离 ”为 欧 氏 距离 。 


3) 协同 过 滤 推 荐 : 对 导入 的 样本 数据 进行 协同 过 滤 挖 气 ， 分 析 协 同 过 滤 挖掘 过 程 中 输出 的 相关 信息 。 


1) 针对 没有 评分 的 数据 应 该 如 何 处 理 ? 


2) 云 协同 过 滤 算 法 的 参数 应 该 如 何 选 择 ? 


11.4 ”拓展 思考 


上 述 案例 采用 基于 项 目的 协同 过 滤 实 现 电 影 推荐 ， 基 于 项 目的 协同 过 滤 考 虑 的 是 项 目 与 项 目 之 间 的 相似 度 ， 推 荐 给 用 户 那些 与 他 历史 记录 中 的 项 目 具 有 较 高 相似 度 的 项 目 。 在 这 里 可 用 基于 用 户 的 协同 
过 滤 实 现 电影 推荐 ， 基 本 思想 是 用 户 对 项 目的 预测 评分 可 以 由 与 该 用 户 相似 度 最 高 的 k 个 邻居 用 户 对 该 项 目的 评分 加 权 平 均 计 算得 到 ， 如 图 11-3 所 示 ， 用 户 1 感 兴趣 的 项 目 ， 对 于 用 户 2~ 用 户 n 也 是 感 兴趣 
的 ， 因 此 用 户 1 和 用 户 2~ 用 户 n 的 相似 度 较 高 ， 它 们 是 相似 用 户 ， 而 用 户 2~ 用 户 n 除 了 对 项 目 1~ 项 目 n 感 兴趣 外 ， 还 对 项 目 t 感 兴趣 ， 因 此 可 将 项 目 t 推 荐 给 用 户 1。 


考虑 利用 两 个 用 户 之 间 对 共同 项 目的 评分 ， 建 立 用 户 Us 与 用 户 ut 的 相似 度 如 下 : 


r 
UV; Up; 


sim(u,,u,) = 一 一 (11-4) 


r y m Z, ` 
其 中 “表示 用 户 us 对 电影 vi 的 评分 。 


相似 用 户 


图 11-3 ”基于 用 户 的 协同 过 滤 推 荐 原理 图 


在 计算 好 用 户 两 两 之 间 的 相似 度 后 ， 对 于 目标 用 户 u 需要 预测 其 对 电影 v 的 评分 ， 利 用 k 近 邻 算法 思想 ， 找 到 与 目标 用 户 u 相似 度 最 大 的 k 个 用 户 作 为 其 邻居 ， 目 标 用 户 u 对 电影 v 的 预测 评分 可 以 根据 k 
个 邻居 用 户 对 电影 v 的 评分 来 预测 。 


| 2. sim(u,,u') Xr, 
"m 二 iem(u' ,k) | | (11-5) 
b sim( u, ,u' ) 


ie m(u' ,k) 
其 中 "表示 用 户 u' 对 电影 v' 的 预测 评分 ， m (u', k) 表示 用 户 u' 的 k 个 相似 邻居 用 户 的 下 标号 ，sim (uj, u) 表示 用 户 uyi 与 用 户 u' 的 相似 度 ， "uw' 表 示 用 户 u; 对 电影 vV' 的 评分 。 


得 到 目标 用 户 对 未 评分 项 目的 评分 预测 值 后 ， 按 照 评分 进行 降序 排序 ， 取 评分 最 大 的 若干 项 目 作 为 最 终 的 推荐 结果 。 采 用 本 案例 的 电影 评分 数据 (完整 数据 见 : 03- 拓 展 思考 /电影 评分 数据 .txt) 基于 用 
户 的 协同 过 渡 实 现 电 影 推荐 ， 将 推荐 的 结果 与 基于 项 目 协同 过 滤 的 推荐 结果 作对 比 ， 找 出 不 同 算法 的 优 务 之 处 。 
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本 章 结合 基于 协同 过 滤 的 互联 网 电影 智能 推荐 的 案例 ， 重 点 介绍 了 基于 项 目 协 同 过滤 算 法 在 实际 案例 中 的 应 用 。 利 用 用 户 对 互联 网 电影 的 评分 数据 ， 基 于 项 目 协同 过 滤 算法 进行 电影 推荐 ， 并 详细 拉 述 
了 数据 挖掘 的 整个 过 程 ， 并 提供 其 相应 算法 的 TipDM -HB 数据 挖掘 平台 的 上 机 实验 。 


第 12 草 ”家电 故障 备件 储备 预测 分 析 


12.1 背景 与 挖掘 目标 


随 着 市 场 竞 争 的 日 益 激烈 ， 维 修 售后 服务 成 为 了 企业 的 重要 竞争 能 力 之 一 。 然 而 产品 故障 的 不 确定 性 使 得 备件 需求 难于 预测 ， 维 修 备件 使 备件 库存 维护 成 本 不 断 增 加 。 这 些 问题 使 维修 企业 面临 的 负担 
加 重 。 因 此 针对 产品 的 备件 需求 问题 ， 本 章 利用 某 设备 生产 企业 的 维修 数据 记录 ， 基 于 数据 挖掘 技术 对 不 同型 号 的 手机 常见 故障 进行 分 析 ， 从 而 为 公司 的 设备 储藏 提供 参考 意见 。 


设备 故障 的 原始 维修 数据 记录 如 表 12-1 所 示 ， 针 对 每 个 属性 列 的 说 明 参 考 表 12-2。 


表 12-1 设备 维修 原始 记录 
服务 商 


em 
日 期 商场 价格 | 属性 级 别 日 期 日 期 编号 单 号 总 数 | 维修 | 大 代码 
Die ET 
maal wam [| | or ram] onan | amen | eons | a |» | [amen uris rir mma | mao [conan 
maal wem |=» | | or nom] mm | armas | eon | a |» | amem uris rens faasoa | orn [conr 
vem wa |=» | | er vom] OO | wv | e |» | [amen urs re rr | [coran 
TE EDIT 
mes | mw ums | — — | | | [sem [wr nme — III 
= HEN 
E) 


2013-08-17 了 和 | | sxe 2013/9/1 | ZJ13082601515236 家 用 空调 | PET I | KFR-26GW/O1FZBp-3 — |1KK0260AGWOOBOL3APA0112 |1KK0260AFNO000L33PE0201 | K- CH-028-0073 
H i 
新 津 五 津 诚 美 电 - esi - , 

2013-08-25 器 商场 2480 三 类 地 区 | 2013-08-25 | 2013/9/1 | ZJ13082601515262 家 用 空调 | 西门 子 | KFR-26GW/02FZBpL-3 |1KK02609LWO0DOL34HD0088 |1KK02609LNO000L35HB0054 |K-CH-028-0183 


mes| o| [om meepmenumensm| — — | | [seem we eene ET 
2013-08-26 4E fH, OEN 2013-08-26 | 2013/9/1 | ZJ13082601532309 o faj | 用 空 j 西门 子 | KFR-23GW/99- N3 1K0023015WOOBILAYHDOO71 |1K0023017NO000LARHBO213 | K- CH-028-0119 


g z 


调 
Tr 
Tr EE | arson | — — ® | | ana [eri msc [marae [esso oes 
TE 


2013-08-24 “ee DEBE 2013-08-24| 2013/9/1 | ZJ13082601537679 BEES | [mm 西门 子 | KFR-35GW/01- N3 1KK0350A AWOODOND2HDO365 | IKK0350A9NOO000LD1HA1240 | P- CH-533- A036 


受理 时 间 故障 原因 代码 故障 原因 描述 维修 措施 反映 问题 描述 要 求 服务 类 型 | 要 求 服务 方式 | 实际 服务 类 型 | 实际 服务 方式 | ”保修 类 型 


新 机 安装 , 货 已 送 到 ,用 户 要 求 9 月 X 号 上 午 9: " 


更 换 按键 显示 板 
2013-08-26 13:35 


D 三 二 


数据 详 见 : 01- 示 例 数 据 / 设 备 维 修 原 始 数 据 .xls 


X 
zi 
ur 


1 
a} H 


2013-08-26 13.23 维修 登门 维修 登门 维修 保 内 


S 
[i 
= 
E 


对 原始 数据 进行 初步 分 析 ， 可 以 在 对 噪音 数据 ， 如 “服务 商 代码 ”进行 预 处 理 之 后 ， 使 用 简单 统计 ， 得 到 每 个 地 区 的 故障 类 型 ， 根 据 故 障 类 型 的 记录 数 来 构建 地 区 、 故 障 以 及 故障 出 现 率 数据 ， 从 而 构 
建 协 同 过 滤 模 型 来 预测 每 个 地 区 可 能 出 现 的 故障 及 其 出 现 率 ， 根 据 预测 结果 来 指导 企业 针对 每 种 故障 的 备件 储备 做 出 提前 调整 ， 更 好 地 适应 市 场 。 


本 次 数据 挖掘 建 模 目标 如 下 : 
对 不 同 的 地 区 进行 整理 分 析 ， 构 建 地 区 、 故 障 、 故 障 出 现 率 数据 ， 使 用 协同 过 滤 算法 预测 各 地 区 故障 及 故障 率 。 


表 12-2 设备 维修 原始 记录 属性 列 说 明 


多 次 维修 是 / 否 Boolean 
"T TK 特种 空调 、 冰 箱 、 电 视 、 机 顶 盒 、 家 用 
ERAR | 调 、 冷 柜 、 手 
品牌 澳柯玛 、 哈 士 奇 、 华 宝 、 康 拜 恩 、 西 门 子 
fil ti, LED42EC260JD 
序列 号 产品 序列 号 String 


内 机 编号 例如 ，1DBC29SWOCNG03M4R360765 
服务 商 代码 TV 代表 电视 机 532 代表 区 号 
改 障 原因 代码 String 

cH GE String 

维修 措施 String 

反映 问题 描述 String 

要 求 服务 类 型 String 

要 求 服务 方式 String 

实际 服务 类 型 TF、 安 装 、 换 机 、 鉴 定 、 调 试 、 退 机 、 维 修 | String 

实际 服务 方式 String 

保修 类 型 String 


String 


String 


String 


属性 备注 

购 机 日 其 
购买 商场 
购买 价格 
机 型 属性 
市 场 级 别 
安装 日 期 
顶 约 日 期 
信息 编号 
工程 单 号 维修 工程 序列 
工程 单 是 / 否 
工程 总 数 

Swing 

Siring | 

Swing 


"E 
Eu 
pes 
qn 


第 12 章 “家电 故障 备件 储备 预测 分 析 


12.1 背景 与 挖 扬 目标 

随 着 市 场 竞争 的 日 益 激烈 ， 维 修 售 后 服务 成 为 了 企业 的 重要 竞争 能 力 之 一 。 然 而 产品 故障 的 不 确定 性 使 得 备件 需求 难于 预测 ， 维 修 备件 使 备件 库存 维护 成 本 不 断 增 加 。 这 些 问题 使 维修 企业 面临 的 负担 
加 重 。 因 此 针对 产品 的 备件 需求 问题 ， 本 章 利用 某 设备 生产 企业 的 维修 数据 记录 ， 基 于 数据 挖掘 技术 对 不 同型 号 的 手机 常见 故障 进行 分 析 ， 从 而 为 公司 的 设备 储藏 提供 参考 意见 。 

设备 故障 的 原始 维修 数据 记录 如 表 12-1 所 示 ， 针 对 每 个 属性 列 的 说 明 参 考 表 12-2。 


表 12-1 设备 维修 原始 记录 


购 机 购买 | 机 型 市 场 安装 预约 信息 工程 IRA 工程 产品 服务 商 
日 期 ee 价格 | 属性 级 别 ES E E MEN CAM i 大 类 代码 
2013-08-15 E ANNE 1. 2013-06-01 | 09-01 | ots | | Cc13082401415045 | 1415045 西门 子 1KK0500BANOO00LASPCO469 |K- CH-532-0332 
Di EE e ES rm or 


"CUNT 
2013-08-20 淘宝 商城 


ES EL 08-25| 2013/9/1 | ZJ13082601514076 | USR1308265415233 gga 西门 子 |KFR-26GW/EF11S3 1KK0260A0WOOBOLCTPBO201 |1KK02609ZNO000L46PA0069 |K-CH-028-0275 


2013-08-25 | 2013/9/1 | ZJ13082601514077 | USR1308265415233 | a | 3 | 西门 子 |KFR-26GW/EF21S3 1KK0260A2WOO0DOLIQPBO109 |1KK0260A1N0000124PB0027 | K- CH-028-0275 


E 


2013-08-25 | 2013/9/1 | ZJ13082601514075 | USR1308265415233 af [en 西门 子 |KFR-72LW/EFO2S3 1KK072068W00BOL43PD0165 |1KK072067N0000LCJPD0008 |K- CH-028-0275 


maa Ri Eme [em[meme| — [*[- m [as EDIT 
TIT | mw [esr Paes — — [*| | jeemmm]mmew |] — — — EDI 
RENERE 
2013-08-17 
nmm 
2013-08-25 新 津 五 津 诚 美 电 2480 三 类 地 区 |2013-08-25| 2013/9/1 | ZJ13082601515262 家 用 空调 | 西门 子 |KFR-26GW/02FZBpL-3 |1KK02609LWOODOL34HDOO88 |1KK02609LNO000L35HB0054 |K-CH-028-0183 
| 器 商场 r^ ' i 


2006-08-01 K- CH-028-0036 
2012-03-12 
2013-08-26 华 读 家 电 


2013-08-15 


E TUNENETZIET = am E 
= 类 地 区 | 2013-08-26] 2013/9/1 | ZJ13082601532309 Fete ens 西门 子 | KFR-23GW/99-N 1K0023015WOOBILAYHDOO71 |1K0023017NO000LARHBO213 | K- CH-028-0119 
ETIITETIE TI 


K- CH-791-0271 


2009-09-02 


2013/9/1 | ZJ13082601532499 Ft we] 澳柯玛 | KFR-SOLW/VCI(K11) | AK0050041 W0011RB6SV1155 | AK005003DNOO00RB6S K- CH-028-0036 
2010-06-18| 2013/9/1 | ZJ13082601537634 EI HH 西门 子 |KFR-35GW/27FZBPH  |1K003503TWO0000P16HC0064 — |1K003503SN0000P14PAO692  |P-CH-533- A036 
2011-05-02 me 2011-05-02 | 2013/9/1 | 1 | 2313082601537655 | HEZ 西门 子 | KFR-35GW/12FZBPJ-3 | 1K003506YWOOAON22PA0088 | 1KO03506XNOOOONARPA0208 |P- CH-533- A036 


2013-08-24 ee DEBE 2013-08-24| 2013/9/1 | ZJ13082601537679 pes 西门 子 | KFR-35GW/01- N3 1KK0350A AWOODOND2HDO365 | LKK0350A9NOO000LD1HA1240 | P- CH-533- A036 


受理 时 间 派 工时 间 故障 原因 代码 故障 原因 描述 ee 反映 问题 描述 要 求 服务 类 型 | 要 求 服务 方式 | 实际 服务 类 型 | 实际 服务 方式 | ”保修 类 型 


ot 货 已 送 到 ,用 户 要 求 9 月 X 号 上 午 9: 


2013-08-26 13:35 | 2013-08-26 13:37.08 | 08-26 13:37:08 En i 保 外 


数据 详 见 : 01- 示 例 数据 /设备 维修 原始 数据 .局 s 


E 2013-08-24| 2013/9/1 | ZJ13082601515236 | e| | quem Pal J |KFR-26GW/01FZBp-3 — |1KK0260AGWOOBOL3APAO112 |1KK0260AFNOO000L33PEO201 |K-CH-028-0073 


2010-06-18 


AH ME 
: 


对 原始 数据 进行 初步 分 析 ， 可 以 在 对 噪音 数据 ， 如 “服务 商 代码 ”进行 预 处 理 之 后 ， 使 用 简单 统计 ， 得 到 每 个 地 区 的 故障 类 型 ， 根 据 故 障 类 型 的 记录 数 来 构建 地 区 、 故 障 以 及 故障 出 现 率 数据 ， 从 而 构 
建 协 同 过 滤 模 型 来 预测 每 个 地 区 可 能 出 现 的 故障 及 其 出 现 率 ， 根 据 预测 结果 来 指导 企业 针对 每 种 故障 的 备件 储备 做 出 提前 调整 ， 更 好 地 适应 市 场 。 


本 次 数据 挖掘 建 模 目标 如 下 : 
对 不 同 的 地 区 进行 整理 分 析 ， 构 建 地 区 、 故 障 、 故 障 出 现 率 数据 ， 使 用 协同 过 滤 算 法 预测 各 地 区 故障 及 故障 率 


表 12-2 设备 维修 原始 记录 属性 列 说 明 


市 场 级 别 一 类 地 区 、 二 类 地 区 、 三 类 地 区 、 四 类 地 区 | String 
安装 日 期 We Fh Ke H Date 
预约 日 期 客户 预约 时 间 Date 


ul TK 特种 空调 、 冰 箱 、 电 视 、 机 顶 盒 、 家 用 
产量 大 类 空调 、 冷 柜 、 手 


Im Suing 

内 机 编号 例如 ，1DBC29SWOCNG03M4R360765 
服务 商 代码 TV 代表 电视 机 532 代表 区 号 
受理 时 间 


派 工 时 间 维修 派 工时 间 Date 
故障 原因 代码 例如 ，HJDYY91000 JD 代表 机 顶 盒 

故障 原因 描述 例如 ， 交 流 接触 器 线圈 短路 

维修 措施 例如 ， 更 换 交 流 接触 器 

反映 问题 描述 例如 ， 不 制冷 

要 求 服务 类 型 安装 、 换 机 、 鉴 定 、 调 试 、 退 机 、 维 修 、 咨 询 
要 求 服 务 方 式 例如 ， 登 门 维修 

实际 服务 类 型 TF、 安 装 、 换 机 、 鉴 定 、 调 试 、 退 机 、 维 修 
实际 服务 方式 例如 ， 登 门 维修 

保修 类 型 例如 : 保 外 _ 保 外 代 表 保修 期 外 String 


String 


String 
String 
String 
String 


String 


String 


String 


String 


12.2 分 析 方 法 与 过 程 

针对 原始 设备 维修 记录 ， 首 先 分 析 数 据 特点 ， 进 行 初步 数据 探索 ， 寻 找 数据 异常 值 、 缺 失 值 ， 然 后 对 这 些 数据 进行 处 理 ， 经 过 属性 提取 、 属 性 转换 ， 再 次 经 过 数据 统计 ， 即 可 构建 出 各 地 区 、 各 地 区 故 
障 、 各 地 区 故障 出 现 率 数据 ， 根 据 构建 的 建 模 样本 数据 使 用 协同 过 滤 算 法 模型 预测 每 个 地 区 可 能 出 现 的 故障 以 及 故障 率 ， 来 指导 企业 针对 每 种 故障 的 备件 储备 做 出 提前 调整 。 

由 图 12-1 知 ， 基 于 设备 故障 数据 的 数据 挖掘 分 析 主 要 包括 以 下 步骤 中 ]: 

1) 从 数据 源 中 抽取 出 历史 数据 ; 

2) 根据 历史 数据 ， 进 行 数据 探索 分 析 ， 研 究 数据 的 缺失 和 异常 情况 ， 并 进一步 进行 预 处 理 ; 

3) 数据 预 处 理 的 过 程 中 需要 对 数据 进行 属性 提取 、 变 换 ， 从 而 得 到 用 于 协同 过 滤 算 法 模型 的 建 模 数据 ; 


4) 利用 3) 形成 的 已 完成 数据 预 处理 的 建 模 数据 ， 建 立 协同 过 滤 算 法 模型 。 针 对 地 区 、 地 区 故障 、 地 区 故障 率 数 据 ， 使 用 协同 过 滤 算 法 模型 进行 预测 分 析 。 根 据 模 型 的 输出 结果 进行 应 用 ， 根 据 应 用 的 


情况 来 优化 模型 。 反 复 循 环 ， 最 终 得 到 模型 的 结果 ， 用 于 实际 应 用 。 


业务 系统 数据 抽取 数据 探索 与 预 处 理 建 模 多 应 用 ZAR BU 


Dh le) eb 28 


图 12-1 基于 设备 故障 的 数据 挖 据 分 析 流 程 


12.2.1 ”数据 探索 分 析 


从 不 同 商家 的 应 用 系统 中 抽取 并 汇总 从 1990 年 到 2013 年 的 设备 故障 维修 数据 作为 历史 数据 进行 分 析 。 其 数据 如 表 12-1 所 示 。 


设备 生产 企业 伴随 着 销量 的 增加 ， 维 修 也 在 不 断 增加 ， 随 着 时 间 的 推移 ， 越 来 越 多 的 维修 记录 被 存储 到 数据 库 中 。 当 这 些 数 据 量 积累 到 一 定 程度 时 ， 必 然 反 映 出 一 定 的 规则 。 但 是 在 记录 维修 数据 时 ， 
人 工 操作 的 失误 以 及 客户 的 遗忘 ， 使 得 维修 数据 集 存在 缺失 、 骂 音 ， 而 这 些 数 据 又 影响 最 终 的 结果 。 为 了 得 出 比较 精确 的 决策 ， 需 先 对 数据 集 进行 探索 分 析 处 理 。 从 数据 库 中 导出 某 设备 生产 企业 的 685413 
条 维修 记录 数据 ， 分 析 该 维修 数据 集 可 以 得 出 其 具有 以 下 特点 : 


1) 每 条 维修 记录 提供 了 29 个 属性 ， 属 性 的 说 明 如 表 12-2 所 示 。 
2) 统计 数据 集中 的 要 求 服务 类 型 ， 客 户 要 求 服务 类 型 为 维修 的 数据 记录 有 314132 条 ， 而 安装 的 数据 记录 有 302824 条 ， 与 维修 记录 条 数 持平 。 


3) 数据 集中 各 项 属性 存在 部 分 或 大 量 的 数据 缺失 ， 缺 失 严 重 部 分 主要 集中 在 购买 商场 、 购 机 价格 、 机 型 属性 、 工 程 单 号 、 工 程 总 数 、 多 次 维修 内 机 编号 、 故 障 原因 代码 、 故 障 原因 描述 、 维 修 措施 这 几 
Natt. 


4) 数据 集中 存在 噪音 数据 ， 噪 音 严 重 的 部 分 集中 在 购 机 价格 、 产 品 型 号 。 由 于 客户 忘记 了 当初 的 购 机 价格 、 填 写 价格 错误 等 原因 ， 该 数据 集中 有 484164 条 数据 记录 显示 购 机 价格 为 0。 同 样 ， 可 以 认为 
由 于 工作 人 员 登 记 方式 不 同 ， 使 得 产品 型 号 中 存在 大 量 噪音 数据 一 一 型 号 的 末端 存在 异常 如， “BCD-398WT-J,， " . 


5) 从 数据 的 分 析 中 可 知 ， 数 据 集中 含有 的 7 种 服务 要 求 类 型 以 及 10 种 产品 大 类 ， 从 数据 集中 筛选 出 安装 数据 记录 ， 其 余 的 可 归 为 维修 记录 。 数 据 统计 图 如 图 12-2 所 示 。 


180 000 
139 100 
160 000 
138 587 3447 
140 000 134 471 
120 000 
100 000 


60 000 79 113 
40000 — 
20000 — 
0 854237 19560 
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图 12-2 ”维修 与 安装 记录 分 布 


由 于 不 同 产品 隐 含 的 规则 不 同 ， 不 能 一 起 讨论 ， 需 先 逐 一 分 析 各 个 产品 ， 而 分 析 方 法 都 相同 ， 不 需要 对 全 部 进行 讨论 ， 只 需 提 取 其 中 的 一 种 产品 进行 详细 分 析 ， 其 他 产品 的 分 析 过 程 类 似 。 在 图 12-2 中 
可 以 看 到 手机 只 有 维修 记录 ， 并 且 记 录 数 不 少 ， 便 于 分 析 挖掘 其 中 隐 含 的 规则 且 不 失 一 般 性 ， 因 此 针对 设备 故障 、 设 备 型 号 、 使 用 时 长 的 关联 分 析 将 选择 手机 设备 进行 挖掘 分 析 。 


12.2.2 ”数据 预 处 理 
1. 缺 失 值 处 理 


由 于 数据 集中 的 数据 量 大 ， 同 时 数据 中 的 缺失 部 分 规律 不 明显 ， 无 法 找到 合理 的 补充 数据 规律 ， 在 数据 缺失 严重 的 属性 中 随意 或 有 限度 地 补充 数据 不 仅 会 影响 数据 的 筛选 ， 甚 至 会 影响 最 终 的 结论 。 
此 在 该 步骤 中 不 对 缺失 数据 进行 处 理 ， 而 是 在 后 面 的 处 理 中 针对 不 同 问题 对 缺失 数据 进行 不 同 的 处 理 。 


根据 多 次 维修 属性 的 反映 ， 每 条 记录 均 为 否 或 空白 ， 因 此 可 以 假设 客户 的 手机 均 为 第 一 次 维修 。 观 察 数 据 发 现 购 机 日 期 有 430 个 缺失 数据 ， 而 最 早 的 购 机 日 期 为 2011-10-10， 故 使 用 2011-10-01 填 补 空 
缺 数据 。 将 预约 日 期 减 去 购 机 日 期 所 得 即 为 客户 手机 使 用 时 长 。 


2. EME 


利用 编程 语言 或 者 数据 处 理 软 件 (Java, C++, Matlab. SPSS) 对 数据 集中 产品 型 号 的 错误 数据 进行 修正 ， 去 除 示 端 存 在 异常 的 型 号 的 末端 : 比如 针对 “KF-75LW/3R (G01) ，”,， 去 掉 末 端 
的 “， ”后 ， 型 号 数据 变 为 “KF-75LW/3R (G01) ”。 由 于 型 号 与 价格 的 关联 不 明显 ， 而 且 有 484164 条 价格 记录 是 由 于 客户 忘记 当初 的 购 机 价格 而 填写 为 0， 从 剩余 的 价格 记录 中 难于 寻找 合理 的 规律 修 
正 错 误 的 价格 ， 因 此 不 对 错误 价格 进行 修正 。 


3. 数 据 构 造 
(1) 提取 地 区 属性 


数据 集中 并 没有 直接 提供 服务 商 的 所 在 地 ， 即 提供 产品 售后 服务 机 构 的 所 在 地 ， 但 是 可 以 从 服务 商 代码 中 提取 出 服务 商 所 在 地 。 利 用 Excel 表 格 提取 服务 商 所 在 地 ， 由 于 区 号 在 服务 商 代 码 的 第 二 
个 “-” 和 第 三 个 “-” 之 间 ， 因 此 提取 服务 商 所 在 地 的 公式 为 : 


例如 ， 原 始 数据 中 R58 的 服务 商 代码 “H-SJ-010-0014”， 根 据 提取 公式 MID (R58, FIND ("-", R58, 3) +1, 3) 可 得 到 010。010 代 表 服 务 商 所 在 地 的 区 号 ， 通 过 网 上 查找 可 得 010 是 北京 的 区 号 ， 从 而 
得 出 该 服务 商 所 在 地 为 北京 。 


(2) 属性 变换 


由 于 数据 集中 反映 问题 的 描述 没有 一 定 的 标准 ， 因 此 对 于 相同 的 手机 故障 ， 客 户 反 映 问 题 的 描述 也 是 各 样 。 例 如 ， 针 对 手机 白 屏 问题 ， 就 有 “开机 白 屏 ”和 “ 白 屏 ” 这 两 种 不 同 的 表示 方式 。 不 同 的 标 
准 不 仅 影响 其 他 属性 与 反映 问题 摘 述 属性 进行 关联 规则 分 析 ， 更 严重 影响 了 研究 手机 某 型 号 设备 出 现 的 常见 故障 现象 ， 因 此 需要 对 反映 问题 摘 述 属性 进行 统一 变换 处 理 。 根 据 手 机 故障 原因 标准 准则 ( 见 表 
12-3) ， 利 用 程序 处 理 筛选 包含 相同 字样 的 数据 记录 ， 并 进行 蔡 换 。 


表 12-3 手机 故障 原因 标准 准则 


手机 故 隐 及 代号 
故障 类 型 故障 类 型 EEE 


A 


"d 
I 


M 


1. 开机 故障 


无 法 连接 
功率 低 
指示 灯 不 这 


指示 类 ] 暗 
指示 灯 颜 色 钳 
i. us 


AS 开机 电流 小 
\6 
Tru 
A8 
LDC ERAM 
LCD 显示 黑屏 
LCD 显示 花房 
LCD AHS 
2. LCD 显示 故障 | B6 LCD 有 黑 点 
B7 LCD RAR 
LCD 有 阴影 


LCD 显示 错乱 


aem 
= 


— h = E. 
sd - 


. 灯 故 障 


ES 


c 


跑马 灯 "TI" 
蓝牙 不 能 激活 
蓝牙 不 能 搜索 
蓝牙 不 能 关闭 
蓝牙 测试 死机 
监 相 不 能 配对 


.蓝牙 故障 


[| 
-— | wm 
wo | Go 


r- 
m |H 
ms | i 
LN 
[Go 
ERN 
[ NEN 
A 
co |i 
c6 
OO [REE 不 识 卡 、 不 读 卡 
i | 
| — ] 
| 1] 
[Ho 
m 
LN 
m — |1 
LN 
[H6 | 
lm | 
Hs 
四 


LN 
LCD 图 像 反 
按键 无 效 (全 部 ) 电池 待机 时 间 短 
数字 键 无 效 . 电池 故障 电池 不 耐用 
功能 S 电池 充 不 进 电 
MICA ET 
TED 拍照 花屏 
导航 键 无 效 Ing 
3. 按键 故障 功能 键 手感 不 良 拍照 黑屏 

侧 键 手感 不 良 拍照 彩屏 

C9 JR ER SS E 10. 3H BA iy BRE TH RR f DE 
数字 键 手 感 不 良 拍照 有 条 纹 
WR TUR RR 拍照 屏 内 
数字 键 丝印 不 良 拍照 阴影 
功能 键 丝印 不 拍照 颜色 失真 

DI 拍照 死机 

D2 fe ba Jc 


ora 
通话 声音 小 11. 触 屏 故障 Mh OE Fa aL 
通话 有 电流 声 AE Bc HE 
nm 无 振动 
无 振动 INT 
SAR 12. 振动 故障 振动 杂音 
D7 Ais INT 振动 弱 


DS X INT 


bd 
NS 


p 
(I 
La 
Tha 
te 


— 
bd 


4 


Ds 


| on 


手机 故障 及 代号 


故障 类 型 故障 类 型 
UN 
GPS 打 不 开 


MP3 Ze d 
MP3 ei H UL 


13. MP3, 、 收 音 故 障 
Wie d 2 AS EA 
MP3 音 Li: 
收音 重启 
喇叭 声音 小 
喇 叫 单 边 有 声音 


IE 
w 
K jä 
Ks 
LN 
[ks — | 
w fi 
u 
2 
_ | BMA 
tA 
s 
[a6 
a 
B 
MI | 天 
m jä 
m 
M4 | 到 


17. 外 观 故障 


插 耳 机 无 效 
耳机 单 边 发 音 
耳机 有 杂音 
ELL ates HEN 
AAP zl 


fs ER 


14， 喇 叭 故障 


15. 充电 故障 


18. 其 他 故障 


由 于 本 章 研究 的 问题 主要 是 手机 常见 故障 与 手机 型 号 、 手 机 各 类 故障 与 市 场 的 相互 关系 ， 而 原始 数据 共有 29 个 属性 ， 所 以 为 了 提高 算法 的 效率 和 精度 ， 这 里 只 需 分 析 对 购 机 日 期 、 预 约 日 期 、 市 场 级 
别 、 服 务 商 代码 、 产 品 型 号 、 反 映 问 题 描述 即 可 。 为 了 方便 进行 基于 协同 过 滤 模 型 的 数据 挖掘 ， 需 要 将 属性 的 数据 均 数 值 化 。 利 用 编程 软件 对 上 述 属性 进行 数值 化 处 理 ， 如 市 场 级 别 属性 的 处 理 ， 其 他 属性 


均 可 如 此 处 理 。 市 场 级 别 数值 化 对 应 表 如 表 12-4 所 示 ， 故 障 数 值 化 对 应 表 如 表 12-5 所 示 。 


表 12-4 市 场 级 别 数值 化 对 应 表 


16. GPRS 故障 


—,, 
TT 
e 


故障 现象 


GPS 信和 号 弱 
EXT at 

it Sp 22 
ES 

I op He 56 

i e RTTE 


HEK 


面 壳 丝 印 错 
按键 丝印 错 
iiy COE 
rine MET 

ri ré EAE 
面 沈 划 伤 

面 元 变形 
Mee 
rc Fe 
不 能 安装 软件 
程序 错乱 
短信 发 不 出 去 


ET TE 
= 


12.2.3 ERE 


1. 构 建 协 同 过滤 模 型 


协同 过 滤 算 法 模型 原理 描述 如 下 : 


(1) 构造 用 户 -项 目 评分 矩阵 


收集 用 户 对 商品 的 评分 ， 通 过 对 原始 数据 进行 清理 、 转 换 和 录入 ， 最 终 形成 一 个 mxn 维 矩阵。 其 中 行 代表 用 户 ， 列 代表 项 目 。 如 表 12-6 所 示 ，Ri，u 表 示 第 i 个 用 户 对 项 目 u 的 评分 值 ， 


表 12-6 用户 -项 目 评分 矩阵 


平分 值 为 数值 型 。 


HU m Ra do ee | Ree | mm | Pee 


地 区 与 故障 的 关联 可 通过 手机 数据 集中 的 记录 条 数 反映 。 由 于 原始 的 手机 数据 记录 集 已 表明 该 客户 并 没有 多 次 手机 维修 记录 ， 因 此 地 区 i 对 故障 y 的 评分 可 用 在 地 区 i 的 故障 集中 故障 y 的 记录 条 数 表 示 。 但 


是 考虑 到 手机 使 用 时 长 并 不 完全 相同 ， 客 户 当月 购买 的 手机 当月 便 维 修 ， 可 见 该 手机 发 生 故 障 的 概率 是 很 大 的 ， 因 此 对 于 该 条 记录 ， 维 修 次 数 可 修正 为 手机 数据 集中 最 大 的 使 用 时 长 减 去 当前 记录 的 使 用 时 


= Max (了 ) = Digit iad R FEN zb NDZNM Z RE NEZM 
weN 。 根 据 该 方法 计算 各 地 区 对 所 有 故障 的 评分 值 ， 形 成 地 区 的 评分 矩阵 Rm，n。 


R, 
长 。 假 设 Ri，y 代 表 地 区 i 对 故障 y 的 评分 值 ，Tw 代 表 使 用 时 长 ,那么 “ 
(2) 相 邻 用 户 和 矩阵 构建 


在 评分 答 阵 中 ， 用 户 已 评分 的 项 目 为 实际 的 评分 值 ， 未 评分 项 目 用 0 表示 。 如 果 用 户 评分 被 看 作 是 n 维 项 目 空间 上 的 向 量 ， 余 弦 相 似 性 就 是 将 用 户 的 相似 性 通过 计算 向 量 间 的 余弦 夹 角 得 到 。 设 用 户 i 和 用 
户 j 在 n 维 项 目 空间 上 的 评分 分 别 用 “、 “表示 ， 那 么 用 户 ji 和 用 户 j 之 间 的 相似 性 计算 公式 如 下 : 


RR 


sim( i,j) = cos(i,j) = | i 
IR] -R | 


SHIKARI SER EE SHE ZAE SARAAN ADA, WK Sa BATE BIER i ARESE ZAI BBA Asim (m, n) ， 并 通过 
cos () BEBE EUER RE FORD SAE., PERTE, HATE EUERE ES FUE FEE O 的 作为 其 最 近邻 居 集 。 

(3) 产生 推荐 

最 近邻 居 集 产生 后 ， 可 计算 目标 用 户 对 项 目的 预测 评分 值 进行 Top-N 推 荐 。 通 过 预测 评分 值 搜索 最 近邻 居 而 产生 推荐 ， 预 测评 分 计算 公式 如 下 : 


» sim(i,]) (R,, — Rj) 


je NN 


Do yeN 
P, =R, +: 


L,?) 


> 


X sim(i,j) 
Je NN 
yeN 


其 中 ，Pi, y 代 表 目 标 用 户 i 对 项 目 y 的 预测 评分 值 ; 及 为 用 户 i 的 平均 评分 值 ; Rj,y 表 示 目 标 用 户 的 最 近邻 居 集 的 用 户 j 对 项 目 y 的 评分 。 在 此 ， 目 标 用 户 的 最 近邻 居 集 用 NN 表示 。 按 评分 预测 值 Pi，\ 的 高 
低 排序 产生 推荐 集 。 


得 到 各 地 区 的 最 近邻 居 集 后 ， 利 用 上 述 公 式 ， 可 得 到 各 地 区 对 于 所 有 故障 的 预测 评分 矩阵 Pm，n， 按 照 评分 预测 值 Pi，y 的 高 低 对 地 区 i 产生 故障 推荐 集 ， 该 集 代表 地 区 i 常 出 现 的 故障 以 及 几率 。 
2. 协 同 过 滤 模 型 分 析 


得 到 各 地 区 对 于 所 有 故障 的 预测 评分 和 矩阵 Pm，n 后 ， 可 生成 如 图 12-3 所 示 的 地 区 与 故障 的 评分 图 。 其 中 x 轴 代表 数值 化 的 故障 ，y 轴 代表 地 区 i 对 故障 u 的 评分 。 从 图 12-3 中 可 以 看 出 ， 各 地 区 在 
x=2，9，15，17， 即 LHCD 显 示 故 障 、 开 机 故障 、 网 络 故障 、 触 屏 故 障 ， 比 较 集中 ， 并 且 各 地 区 对 所 有 故障 的 数量 趋势 一 样 。 其 中 山东 省 的 地 区 531 的 开机 故障 尤其 突出 。 


x 104 地 区 与 故障 


Q= 


图 12-3 ”地 区 故障 图 


0.3 时 ， 各 地 区 产生 的 最 近邻 如 表 12-7 所 示 ， 当 Q=0.2 时 ， 各 地 区 产生 的 最 近邻 如 表 12-7 的 加 黑 字体 部 分 所 示 。 由 表 12-7 可 以 发 现 ， 当 a=0.2 时 ， 查 看 地 图 可 以 发 现 各 地 区 的 最 近邻 在 地 理 位 置 上 也 


近邻 ， 这 表明 了 地 理 位 置 上 相近 的 地 区 具有 相似 性 。 因 此 地 理 位 置 上 相近 的 地 区 ， 其 手机 常见 故障 也 类 似 。 


表 12-7 ”地 区 近邻 表 


5111 


使 用 协同 过 滤 模 型 进行 运算 ， 


得 到 如 表 12-8 所 示 的 结果 。 


近邻 值 


29, 27, 871, 371, 351, 791 
25, 28, 791, 311, 531, 371, 731, 571, 871, 27 

85] 

29 

898, 311 

21, 571, 28, 791, 311, 731, 371, 755, 551, 531 
371, 29, 351, 871, 931, 10, 791, 531, 991, 21, 28 
311, 731, 25, 21, 791, 571, 591, 531, 371, 27, 771 
351, 27, 371, 10, 791, 23, 851, 931 


ae, 531, 731, 791, 25, 


21, 571, 591, 371, 898, 


27, 531, 


24 


371, 29, 851, 27, 791, 451, 871, 10 
791, 351, 27, 851, 29, 871, 21, 531 

791, 371, 351, 851 

991, 931, 871 

311, 21, 871, 371, 28, 791, 27, 25 

571, 755, 771, 731, 25 

551, 731, 755, 25, 771, 591, 28, 311, 21 

755 

731, 571, 898, 28, 5111, 311, 771 

591, 571, 28, 771, 311, 551, 25, 21, 755, 5111 
571, 551, 25, 771, 577, 731 

551, 731, 571, 755, 591, 28 

371, 451, 351, 311, 851, 25, 28, 21, 29, 

371, 351, 791, 22, 451, 29 

27, 371, 991, 531, 931, 471, 10, 351, 21, 


24, 591, 311 
991, 27, 471, 871, 29 
931, 871, 471, 27 
591. 731 


12-8 地 区 预测 常见 故障 表 


79] 


871, 


10 


10 9. 17, 2, 18, 7, 15, 6 
21 9, 17, 2, 18, 7, 15, 6, 11, 5, 12, 4 

22 9, 17, 2, 18, 7 

23 9, 17, 2, 18,7 

24 9. 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10, 14 

25 9 17, 2, 18. 7, 15, 6, 11, 5, 12, 4, 10, 14, 3, 13, 1, 16, 8 
27 9, 17, 2, 18, 7, 15 

28 9, 17, 2, 18, 7, 15, 11, 6, 5, 12, 4, 10, 14, 3, 13, 1, 16, £ 
29 9, 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10 

311 9. 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10, 14, 3, 13, 16, 1, 8 
35] 9. 17, 2, 18, 7, 15, 85, 11, 5, 12, 4, 10, 14, 3, 13, 16, 1, 8 
371 9. 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10, 14, 3, 13, 1, 16, 8 
43] 9 17, 2, 18, 7, 15 

451 9, 17, 2, 18, 7, 15 

471 9, 17, 2, 18, 7, 15 

53] 9. 17, 2, 18, 7, 15, 5, 11, 5, 4, 12, 10, 14, 3, 13, 16, 1, 8 
551 9. 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10, 14, 3, 15, 16, 1, 8 
555 9, 17, 2, 18, 7 

571 9. 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10, 14, 3, 13, 1, 16, 8 
577 9, 17, 2, 18, 7, 15, 6, 5, 11 

59] 9, 17, 2, 18, 7, 15, 6, 11 

731 0. 17, 2, 18, 7, 15; 5, 11 

755 9. 17, 2, 18, 7, 15, 6, 11, 5, 12, 4, 10, 14, 3, 13, 16, 1, 8 
771 9. 17, 2, 18, 7, 15, 6, 1l 

791 9. 17, 2, 18, 7, 15, 6, 11, 5 

851 9 17, 2, 18, 7, 15 

871 9, 17, 2, 18, 7, 15, 6, 11, 5, 12 

898 9. 17, 2, 18, 7, 15, 6, 11 

93] 9. 17, 2, 18, 7, 15, 6, 11, 5 

99] 9. 17, 2, 18, 7, 15 

5111 9, 17, 2, 18, 7, 15, 6, 11 


可 得 到 如 下 结论 ， 每 个 地 区 的 手机 故障 主要 是 : 开机 故障 、 触 屏 故障 、LCD 显 示 故 障 和 通话 故障 。 同 时 这 4 类 手机 故障 在 手机 数据 集中 所 占 的 比重 是 很 大 的 ， 而 根据 推荐 结果 分 析 ， 可 以 发 现 各 地 区 的 常 
见 手 机 故障 都 是 这 几 类 故障 ， 表 明了 该 品牌 的 手机 出 现 故 障 与 各 地 区 的 关联 较 低 。 


[1 周 连 兰 ， 徐 跃 ， 刘 晓 玲 等 .设备 维修 信息 挖 所 .第 二 届 泰 迪 杯 全 国 大 学 生 数 据 挖 据 竞赛 (http://www.tipdm.org) 优秀 作品 . 


12.3 ”上 机 实验 


1. 实 验 目 的 
: 加 深 对 协同 过 滤 算 法 原理 的 理解 及 使 用 。 


- 掌握 使 用 协同 过 滤 算 法 解决 实际 问题 的 方法 。 


2. 实 验 内 容 


* 原始 设备 故障 数据 经 过 数据 预 处 理 以 及 属性 变换 后 ， 得 到 建 模 数 据 ， 使 用 协同 过 滤 算 法 建 模 。 根 据 模型 分 析 结果 ， 预 测 每 个 地 区 出 现 故 障 的 几率 。 
3. 实 验方 法 与 步骤 
登录 TipDM-HB 数 据 挖掘 平台 后 ， 执 行 以 下 步骤 。 
(1) 数据 准备 
下 载 “02- 上 机 实验 /aread malfunction pref.csv" , 
(2) 创建 方案 
登录 TipDM-HB 数 据 挖 掘 平 台 ， 在 “方案 管理 ”页 面 选择 “ 聚 类 分 析 ” 创 建 一 个 新 方案 。 


方案 名 称 : 基于 设备 故障 的 备件 储备 预测 分 析 。 


方案 描述 : 通过 提取 、 转 换 设备 故障 数据 ， 得 到 地 区 、 地 区 故障 、 地 区 故障 评分 数据 ， 利 用 云 推荐 算法 分 析 预 测 不 同 地 区 出 现 的 故障 及 其 几率 ， 为 设备 备件 的 储存 提供 意见 。 


(3) 上 传 数据 


进入 “数据 管理 ”标签 页 ， 选 择 下载 的 数据 并 上 传 ， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 “刷新 ”按钮 刷新 数据 。 因 为 这 里 上 传 的 数据 是 标准 化 后 的 数据 ， 所 以 其 属性 名 已 经 做 了 修改 。 


选择 “系统 菜单 ”一 “ 云 算法 ”一 “ 云 协 同 过 滤 算 法 ”。 
导入 数据 : 选择 “地 区 故障 评分 .txt” 文 件 ， 点 击 “ 导 入 数据 ”按钮 。 
@ 参 数 设 置 : “推荐 个 数 ” 为 3，“ 最 多 相似 项 目 ” 为 100，“ 最 小 评分 ”为 1，“ 最 大 相似 度 ” 为 10，“ 最 大 评分 ”为 10，“ 相 似 距 离 ”为 欧 氏 距离 。 


@ 协 同 过 滤 推 荐 : 对 导入 的 样本 数据 进行 协同 过 滤 挖 气 ， 分 析 协 同 过 滤 挖 掘 过 程 中 输出 的 相关 信息 。 


1) 评分 数据 如 何 构建 ? 


2) 如 何 评价 模型 的 输出 结果 ? 


124 ”拓展 思考 


针对 设备 故障 数据 ， 分 析 设 备 故 障 和 哪些 属性 有 较 大 关系 ， 即 推测 出 故障 发 生 的 原因 。 针 对 原始 数据 的 29 个 属性 ， 先 做 属性 因子 分 析 以 及 相关 性 分 析 ， 得 到 比较 重要 的 属性 或 和 故障 相关 性 比较 大 的 属 
性 。 然 后 在 此 基础 上 ， 应 用 属性 变换 提取 出 相对 重要 的 属性 来 挖掘 分 析 关 联 规 ， 以 此 得 到 设备 故障 的 原因 。 


125 wx 


本 章 结合 基于 设备 故障 的 备件 储备 预测 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 协同 过 滤 算 法 在 实际 案例 中 的 应 用 。 通 过 数据 预 处 理 、 属 性 提取 、 属 性 变换 ， 得 到 建 模 数 据 ， 即 地 区 编号 、 地 区 设备 故 
障 、 地 区 设备 故障 率 数 据 。 然 后 使 用 协同 过 滤 算 法 模型 对 数据 进行 建 模 ， 得 到 各 个 地 区 的 出 现 故 障 及 其 几率 ， 为 企业 的 备件 储备 做 指导 。 案 例 详细 描述 了 数据 挖掘 的 整个 过 程 ， 并 提供 了 云 平 台 推 荐 算法 的 
上 机 实验 ， 使 读者 加 深 对 该 算法 的 理解 以 及 应 用 算法 解决 实际 问题 的 能 力 。 


第 13 章 ”市 供水 混 凝 投药 量 控制 分 析 


13.1 背景 与 挖掘 目标 


水 是 生命 的 源泉 ， 是 人 类 生活 不 可 缺少 的 成 分 ， 然 而 随 着 工业 发 展 迅速 ， 人 类 活动 范围 的 快速 扩大 ， 水 资源 受到 的 污染 日 益 严重 。 因 此 ， 如 何 有 效 地 对 水 进行 净化 处 理 ， 成 为 了 当今 国内 外 学 者 研究 的 


TANNINS 


水 的 净化 处 理 一 般 要 经 过 混合 、 絮 凝 、 沉 十 、 过 滤 和 消毒 5 个 阶段 ， 妹 凝 沉 泥 是 水 处 理 的 初始 环节 ， 是 悬浮 颗粒 、 胶 体 等 杂质 处 理 的 必需 工艺 。 在 这 个 环节 中 ， 投 药 控制 起 到 至 关 重 要 的 作用 。 它 通过 控 
制 混 凝 剂 的 使 用 量 ， 将 水 中 胶体 粒子 以 及 微小 悬浮 物 进 行 聚集 ， 然 后 通过 沉淀 的 过 程 将 凝聚 物 下 降 ， 使 沉 泻 池 的 出 水 浊 度 符合 相关 标准 。 由 于 混 凝 沉 泻 池 是 一 个 大 容积 对 象 ， 因 此 对 于 混 凝 剂 投 加 与 对 应 水 
絮凝 沉淀 后 的 浊 度 人 存在 一 段 较 长 的 时 间 差 ， 造 成 控制 滞后 。 其 投药 控制 的 整个 流程 如 图 13-1 所 示 。 


WETS 


| 投药 控制 系统 


图 13-1 投药 控制 系统 流程 图 
从 图 13-1 中 可 以 看 出 混 凝 剂 投 加 量 决定 了 自来水 的 质量 和 能 源 消 耗 ， 因 此 研究 投药 控制 系统 中 混 凝 剂 的 投 加 量 ， 有 助 于 企业 降低 能 耗 ， 提 高 供水 企业 的 经 济 效益 和 社会 效益 。 


广东 某 水 厂 (位 于 广州 市 南沙 区 ) 投药 控制 系统 采集 的 数据 信息 ， 如 表 13-1 所 示 ， 其 中 包含 原水 pH 值 、 原 水 湿度 、 沉 演 池 出 水 浊 度 等 属性 。 水 厂 选用 的 混 凝 剂 是 PAC， 其 沉 泻 池 出 水 浊 度 的 合格 标准 为 
不 大 于 1.10NTU， 同 时 此 水 三 有 两 个 沉淀 池 ( 即 3 号 和 4 号 沉 泻 池 ) 。 一 般 情况 下 ， 从 原水 添加 混 凝 剂 反 应 到 沉 演 结束 出 水 需要 70min 到 120min。 


表 13-1 投药 控制 系统 原始 数据 


时 间 原水 原水 3 号 沉淀 池 4 号 沉淀 池 每 小 时 每 小 时 PAC 
E HKE 出 水 浊 度 取水 量 供水 量 损 


2013/8/21 14:00 6 


2013/8/21 15:00 | 6.92 7940 0.25 


2013/8/21 16:00 


468.2 9760 8362 0.24 
4 


2013/8/21 13:00 | 480001 | — 405 | 38 | 9780 | 8888 0.23 


i 
3 
2013/8/21 19:00 | 6.92 9044 0.22 
2013/8/21 20:00 9418 0.21 
2013/8/21 21:00 9104 0.22 
2013/8/21 22:00 3 
3 
3 UN 


2.76 8721 132.01 
7902 135.83 
2013/8/22 1:00 7015 115.42 
2013/8/22 2:00 | 6 6414 120.14 
2013/8/22 3:00 110.02 
2013/8/22 4:00 117.83 
2013/8/22 5:00 112.01 
2013/8/22 6:00 120.65 
2013/8/227:00 | 69 | 30415 | | 0722 | 074 | 5530 | 7256 | 112.84 
2013/8/22 8:00 113.84 
2013/8/22 9:00 109.12 
2013/8/22 10:00 106.38 
2013/8/22 11:00 106.38 
2013/8/22 12:00 8788 110.01 
2013/8/22 13:00 105.28 
2013/8/22 14:00 115.08 


数据 详 见 : 01- 示 例 数 据 / 投 药 控制 数据 集 .xls 


6 
6 
6 
6 
6 
6 
£ 


[37601 | 324 | 29 | 9560 | 890 | 02 
2013/8/21 23:00 | am 5 


2013/8/22 0:00 


E 
441.28 8140 0.25 
2013/8/21 17:00 | 692 | 40696 | — 173 | 16 | 5900 | 8267 0.97 
2013/8/21 18:00 | 6.91 8590 0.93 
54 , 
6.21 


pH 
9] 3.85 
9] 
91 Mi 
1.6 
9] 3.4 
9] 3.1 
9 2.9 
9 , IC 
9 
9 2. 
9] dd 


针对 上 述 数 据 ， 分 析出 原水 水 质 、 出 水 流量 、 出 水 湿度 、 药 物 投 加 量 等 的 相关 关系 ,设计 一 个 对 混 凝 剂 投药 量 进行 实时 控制 的 系统 模型 ， 从 而 为 水 厂 受 不 同 条 件 影响 时 选择 最 佳 的 投药 量 ， 具 体 分 析 目 
标 如 下 : 


* 分 析 原 始 数 据 中 的 数据 关系 ,获取 从 原水 添加 混 凝 剂 反应 到 沉淀 结束 出 水 所 需 时 间 。 
` 考虑 时 间 灌 后 性 ， 将 历史 原水 水 质 、 流 量 及 混 凝 剂 投 加 量 作 为 模型 输入 参数 ， 建 立 有 效 的 模型 ， 输 出 最 佳 混 凝 剂 投药 量 结果 。 


` 增加 输入 参数 ， 即 增加 沉淀 池 浊 度 ， 修 改 投药 控制 系统 模型 ， 输 出 新 的 最 佳 混 凝 剂 投药 量 ， 实 现 对 投药 量 的 反馈 调节 。 


第 13 章 ”市 供水 混 凝 投药 量 控制 分 析 


13.1 背景 与 挖掘 目标 


水 是 生命 的 源泉 ， 是 人 类 生活 不 可 缺少 的 成 分 ， 然 而 随 着 工业 发 展 迅速 ， 人 类 活动 范围 的 快速 扩大 ， 水 资源 受到 的 污染 日 益 严重 。 因 此 ， 如 何 有 效 地 对 水 进行 净化 处 理 ， 成 为 了 当今 国内 外 学 者 研究 的 


ASSAIS 


水 的 净化 处 理 一 般 要 经 过 混合 、 絮 凝 、 沉 淀 、 过 滤 和 消毒 5 个 阶段 ， 絮 凝 沉 泥 是 水 处 理 的 初始 环节 ， 是 悬浮 颗粒 、 胶 体 等 杂质 处 理 的 必需 工艺 。 在 这 个 环节 中 ， 投 药 控制 起 到 至 关 重 要 的 作用 。 它 通过 控 
制 混 凝 剂 的 使 用 量 ， 将 水 中 胶体 粒子 以 及 微小 悬浮 物 进行 聚集 ， 然 后 通过 沉 泥 的 过 程 将 凝聚 物 下 降 ， 使 沉淀 池 的 出 水 浊 度 符合 相关 标准 。 由 于 混 凝 沉淀 池 是 一 个 大 容积 对 象 ， 因 此 对 于 混 凝 剂 投 加 与 对 应 水 
絮凝 沉淀 后 的 浊 度 人 存在 一 段 较 长 的 时 间 差 ， 造 成 控制 滞后 。 其 投药 控制 的 整个 流程 如 图 13-1 所 示 。 
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| 投药 控制 系 


图 13-1 投药 控制 系统 流程 图 
从 图 13-1 中 可 以 看 出 混 凝 剂 投 加 量 决定 了 自来水 的 质量 和 能 源 消耗 ， 因 此 研究 投药 控制 系统 中 混 凝 剂 的 投 加 量 ， 有 助 于 企业 降低 能 耗 ， 提 高 供水 企业 的 经 济 效益 和 社会 效益 。 


广东 某 水 厂 〈 位 于 广州 市 南沙 区 ) 投药 控制 系统 采集 的 数据 信息 ， 如 表 13-1 所 示 ， 其 中 包含 原水 pH 值 、 原 水 湿度 、 沉 淀 池 出 水 浊 度 等 属性 。 水 厂 选 用 的 混 凝 剂 是 PAC， 其 沉 泻 池 出 水 浊 度 的 合格 标准 为 
不 大 于 1.10NTU， 同 时 此 水 广 有 两 个 沉淀 池 ( 即 3 号 和 4 号 沉 泻 池 ) 。 一 般 情况 下 ， 从 原水 添加 混 凝 剂 反应 到 沉 演 结束 出 水 需要 70min 到 120min。 


表 13-1 投药 控制 系统 原始 数据 


pH jh LH 7k i RE 出 水 浊 度 取水 量 供水 损耗 
2013/8/21 13:00 0.23 
2013/8/21 14:00 0.24 
2013/8/21 15:00 0.25 
2013/8/21 16:00 0.25 
2013/8/21 17:00 Lem [ws | 1m | e — | se | ao 0.97 
2013/8/21 18:00 0.93 
2013/8/21 19:00 0.22 
2013/8/21 20:00 0.21 
2013/8/21 21:00 0.22 
2013/8/21 22:00 9560 2 
2013/8/21 23:00 132.01 
2013/8/22 0:00 135.83 
2013/8/22 1:00 115.42 
2013/8/22 2:00 120.14 
2013/8/22 3:00 110.02 
2013/8/22 4:00 117.83 
2013/8/22 5:00 112.01 
2013/8/22 6:00 120.65 
2013/8/227:00 | 69 | 30415 | 072 | 074 | 5530 | 7256 | 112.84 
2013/8/22 8:00 113.84 
2013/8/22 9:00 109.12 
2013/8/22 10:00 106.38 
2013/8/22 11:00 106.38 
2013/8/22 12:00 110.01 
2013/8/22 13:00 105.28 
2013/8/22 14:00 115.08 


数据 详 见 : 01- 示 例 数据 /投药 控制 数据 集 .xls 


一 
iD 
iD 
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针对 上 述 数据 ， 分 析出 原水 水 质 、 出 水 流量 、 出 水 浊 度 、 药 物 投 加 量 等 的 相关 关系 ， 设 计 一 个 对 混 凝 剂 投 药 量 进行 实时 控制 的 系统 模型 ， 从 而 为 水 厂 受 不 同 条 件 影 响 时 选择 最 佳 的 投药 量 ， 有 具体 分 析 目 
标 如 下 : 


:分析 原始 数据 中 的 数据 关系 ， 获 取 从 原水 添加 混 凝 剂 反应 到 沉淀 结束 出 水 所 需 时 间 。 
“ 考虑 时 间 滞 后 性 ， 将 历史 原水 水 质 、 流 量 及 混 凝 剂 投 加 量 作为 模型 输入 参数 ， 建 立 有 效 的 模型 ， 输 出 最 佳 混 凝 剂 投药 量 结果 。 


“ 增加 输入 参数 ， 即 增加 沉淀 池 浊 度 ， 修 改 投药 控制 系统 模型 ， 输 出 新 的 最 佳 混 凝 让 


剂 投药 量 ， 实 现 对 投药 量 的 反馈 调节 。 


13.2 ”分析 方法 与 过 程 


由 于 水 处 理 中 混 凝 投 加 过 程 是 一 个 复杂 的 物理 、 化 学 反应 过 程 ， 具 有 时 滞 和 非 线 性 特性 。 目 前 的 混 凝 投药 控制 方法 总 有 一 些 不 足 之 处 ， 如 烧杯 实验 法 需要 每 天 或 每 周 进行 频繁 试验 ， 耗 时 很 多 且 对 输出 
水 质 影响 很 大 ;流动 电流 法 中 的 流动 电流 检测 器 在 使 用 过 程 中 会 逐渐 降低 精度 ， 且 在 高 浊 度 水 或 某 些 污染 较 严 重 的 水 质 和 繁 凝 剂 是 有 机 阴离子 高 分 子 时 ， 不 能 适用 。 为 了 得 到 在 不 同 条 件 下 混 凝 剂 的 投 加 
量 ， 需 要 建立 一 个 混 凝 剂 投药 量 进 行 实 时 控制 系统 模型 。 而 影响 絮凝 效果 的 因素 很 多 ， 包 括 取水 量 、 原 水 水 质 、 原 水 温度 、 混 凝 剂 投 加 量 等 。 在 本 例 中 ， 某 水 三 的 水 处 理 混 凝 投 加 过 程 如 图 13-2 所 示 。 
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图 13-2 ” 某 水 厂 的 水 处 理 混 凝 投 加 过 程 
本 例 对 混 凝 沉 淀 过程 的 投药 数学 模型 进行 了 深入 分 析 和 研究 ， 采 用 机 理 法 和 智能 方法 来 确定 投药 模型 ， 建 立 基于 RBF 神 经 网 络 的 最 佳 投药 量 的 闭环 预测 系统 ， 其 分 析 流 程 图 如 图 13-3 所 示 。 
投药 控制 系统 模型 主要 包括 如 下 步骤 : 
1) 从 业务 系统 中 的 原始 数据 集中 抽取 历史 数据 ， 包 括 取水 量 、 原 水 水 质 、 混 凝 剂 投 加 量 等 属性 。 
2) 对 历史 数据 进行 数据 探索 分 析 ， 主 要 采用 分 布 分 析 。 对 分 析 后 的 数据 进行 数据 清洗 、 有 异常 值 处 理 以 及 数据 变换 等 操作 ， 完 成 数据 的 探索 分 析 与 预 处 理 过 程 。 
3) 对 预 处 理 后 的 数据 构建 模型 ， 建 立 获取 反应 时 间 差 模型 与 基于 BP 神 经 网 络 的 最 佳 投药 量 的 模型 ， 并 对 模型 的 缺陷 进行 优化 与 改进 。 


4) 分 析 模 型 结果 。 
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图 13-3 ”投药 控制 系统 模型 流程 图 


13.2.1 数据 抽取 


为 了 分 析 本 例 的 目标 ， 从 水 厂 的 生产 系统 中 抽取 数据 ， 它 记录 了 投药 和 水 质 的 详细 数据 。 从 中 抽取 2013 年 8 月 8 日 至 2014 年 9 月 5 日 每 小 时 的 监测 数据 ， 一 共有 9397 条 记录 。 抽 取 的 字段 包括 原水 PH、 原 
水 浊 度 、 出 水 浊 度 、 取 水 量 、 供 水 量 以 及 PAC 消 耗 量 数据 ， 其 中 取水 量 是 原水 的 流速 ， 供 水 量 是 出 厂 水 的 流速 (沉淀 池 后 还 有 部 分 工艺 会 造成 水 的 损耗 ) ， 取 水 量 和 供水 量 的 单位 是 m3/h (立方 米 每 小 
HJ) ，PAC 消 耗 是 混 凝 剂 PAC 的 消耗 量 ， 单 位 是 mg/L (1L 原 水 消耗 PAC 的 量 ) 。 


13.2.2 ”数据 探索 分 析 


通过 分 析 混 凝 过 程 ， 从 图 13-2 中 可 以 看 出 ， 出 水 浊 度 是 因 变量 ， 原 水 PH、 取 水 量 、 原 水 浊 度 、PAC 投 放量 等 都 属于 自 变 量 。 同 时 结合 相关 人 员 经 验 ， 初 步 确定 数据 的 相关 变量 之 间 的 影响 如 表 13-2 所 


表 13-2 REBAR 


因素 变量 原水 pH 原水 浊 度 时 间 
对 出 水 浊 度 影响 有 影响 正 向 影响 反 向 影响 
因素 变量 供水 量 PAC 投放 量 


对 出 水 浊 度 影响 | 无 影响 | — 反 向 影响 "m 


确定 各 个 变量 的 影响 后 ， 对 原始 数据 进行 分 布 分 析 ， 分 析出 数据 之 间 的 规律 。 从 原始 数据 集 的 数据 中 可 知 ，8 月 8 日 00: 002:8H 19H23: 00 的 数据 集中 PAC 消 耗 量 为 NULL， 由 于 该 段 时 间 的 数据 几乎 
都 为 缺 省 值 。 由 于 分 析 的 主要 目标 为 PAC 的 消耗 量 ， 所 以 这 部 分 数据 需要 进行 处 理 。 


分 析 该 水 三 的 数据 发 现 ， 原 水 浊 度 范围 变化 很 大 ， 原 水 最 低 浊 度 时 仅 为 5.13NTU， 原 水 浑浊 时 其 最 高 浊 度 高 达 868.36NTU。 为 了 使 建立 的 投药 量 模型 适用 学 围 更 广 ， 需 要 对 原水 浊 度 划分 样本 区 间 集 ， 
使 模型 的 数据 集 和 验证 数据 集 肖 盖 所 有 浊 度 区 间 ， 对 数据 样本 划分 浊 度 区 间 (前 闭 后 开 区 间 ) 后 得 到 样本 数据 集 如 表 13-3 所 示 。 


表 13-3 ”原始 数据 浊 度 区 间 表 


M pa r 


浊 度 区 间 | | | | 
(NTU) 90 ~100 | 100 ~200 | 200 ~300 | 300 ~ 400 | 400 ~500 | 500 ~ 600 | 600 ~700 | 700 -800| >800 
pe [ 42 | 3 | m | v | s [| tm | w 


[3 


样本 数量 


从 表 13-3 和 图 13-4 可 知 : 该 水 厂 的 原水 水 质 比较 稳定 ， 其 浊 度 大 部 分 在 10NTU~400NTU 之 间 ， 高 浊 度 的 原水 出 现 非 常 少 ， 水 质 的 情况 集中 于 低 浊 度 的 区 间 内 。 
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图 13-4 浊 度 区 间 直 方 图 


13.2.3 ”数据 预 处 理 


从 数据 探索 分 析 环 节 ， 可 知 原始 数据 中 存在 缺 省 值 与 异常 值 ， 因 此 需要 对 其 进行 处 理 。 本 案例 主要 从 数据 清洗 、 缺 失 值 处 理 、 数 据 变换 等 方面 对 数据 进行 预 处 理 。 


1. 数 据 清洗 


数据 清洗 的 主要 目的 是 从 分 析 目 标 方面 出 友 ， 算 选 出 需要 的 数据 。 因 为 从 探索 分 析 环 节 对 变量 间 的 影响 可 知 ， 供 水 量 属性 不 影响 PAC 混 凝 剂 的 消耗 。 因 此 在 数据 处 理 时 ， 可 以 将 瑜 余 的 数据 过 滤 。 本 案 
例 主要 进行 如 下 操作 : 去 除 供水 量 属性 ， 其 数据 清洗 后 的 数据 集 如 表 13-4 所 示 。 


表 13-4 数据 清洗 后 的 数据 集 


时 间 原水 浊 度 | 3 号 沉淀 池 出 水 浊 度 | 4 号 沉淀 池 出 水 浊 度 PAC 损 耗 
2013/8/8 0:00 7.077 0.747 954] NULL 
2013/8/8 1:00 7.075 7.674 0.772 9539 NULL 
2013/8/8 2:00 NULL 
2013/8/8 3:00 7.069 NULL 
2013/8/8 4:00 NULL 
2013/8/8 5:00 NULL 
2013/8/8 6:00 NULL 
2013/8/8 7:00 NULL 
2013/8/8 8:00 NULL 
2013/8/8 20:00 NULL 
201/88 21:00 NULL 
2013/8/8 22.0 NULL 
2013/8/8 23.0 NULL 
2013/85 0:00 NULL 

2. 缺 失 值 处 理 


从 探索 分 析 环 节 可 以 发 现在 8 月 8 日 00: 002:8H19H23: 00 的 数据 集中 ，PAC 消 耗 量 为 缺 省 值 。 由 于 该 段 时 间 的 数据 几乎 都 为 缺 省 值 ， 在 分 析 目 标 时 ， 根 据 缺 省 值 处 理 原则 以 及 结合 实际 业务 ， 可 以 直 
接 去 除 该 阶段 的 测量 数据 。 处 理 后 的 数据 集 如 表 13-5 所 示 。 


表 13-5 缺失 值 处 理 


时 间 LETT 3 号 沉淀 池 出 水 浊 度 PACH tt 
2013/8/20 1:00 0.27 
2013/8/20 2:00 1.24 
2013/8/20 4:00 1.81 
2013/8/20 6:00 38 
2013/8/20 7:00 2.01 
2013/8/20 10:00 133 
2013/8/20 12:00 Li 
2013/8/20 14:00 0-78 
2013/8/20 16:00 E 
2013/8/20 17:00 Lo 
2013/8/20 19:00 078 
2013/8/20 22:00 Lea 
0188202500 | 654 TI5 | — 54 — "[ — 43$ | 9m T iu 
2013/8/21 0:00 


3. 数 据 变 换 


处 理 缺 失 值 后 ， 需 要 处 理 沉 泻 池 的 数据 。 因 为 水 三 包含 了 两 个 沉 泻 池 ， 在 计算 沉 泻 池 的 出 水 浊 度 时 ， 需 要 对 其 进行 数据 变换 。 经 过 相关 业务 人 员 确 认 后 ， 将 两 个 沉 泻 池 3 号 和 4 号 沉淀 池 出 水 浊 度 的 平均 
值 作 为 沉淀 池 出 水 浊 度 ， 其 处 理 后 的 数据 情况 如 表 13-6 所 示 : 


表 13-6 “平均 沉淀 池 的 出 水 浊 度 


时 间 PAC 消耗 
2013/8/20 2: 00 9770 1.24 
2013/8/20 3:00 7120 2.4 
2013/8/20 4:00 7.14 5700 1. 81 
2013/8/20 5:00 5680 1. 45 
2013/8/20 6: 00 5680 1.38 
2013/8/20 7:00 5660 2 
2013/8/20 8: 00 7.11 6870 2. 03 
2013/8/20 9: 00 9780 1.38 


( &) 


4. 异 常 值 处 理 


在 处 理 后 的 数据 中 ， 可 以 得 知 2013 年 8 月 20 日 1: 00 至 8 月 21 日 22: 00 的 原水 浊 度 数据 为 300~800， 出 水 浊 度 为 1~7， 但 消耗 的 PAC 量 为 0~3， 与 后 面 的 数据 进行 比较 可 知 PAC 量 数据 明显 错误 ， 其 所 有 
数据 的 PAC 量 范围 为 20~50， 如 图 13-5 所 示 。 
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由 于 这 类 型 的 异常 值 是 连续 产生 的 ， 因 此 在 处 理 过 程 将 这 段 时 间 内 的 异常 值 删除 ， 其 处 理 结 果 如 表 13-7 所 示 。 


表 13-7 去 除 异 常 值 后 的 数据 集 


时 间 PAC 消耗 
2013/8/22 7:00 5530 112. 84 
2013/8/22 8:00 5490 113. 84 
2013/8/22 9:00 9320 109. 12 
2013/8/22 10:00 9560 106. 38 
2013/8/22 11:00 9640 106. 38 
2013/8/22 12:00 244. 3 2. 235 9690 110. 01 

~ ee 
| 6B | 
| | 686 | 
| 6B | 
688 


2013/8/22 13: 00 6. 88 [oma er | e — 105. 28 
2013/8/22 14: 00 6. 88 202. 7 115. 08 
2013/8/22 16:00 6. 88 2. 525 111. 05 
2013/8/22 17:00 6. 88 ms poi [m — 114. 84 


数据 中 除了 出 现 连 续 异常 值 外 ， 还 会 存在 这 样 一 些 数 据 ， 它 们 在 某 些 时 间 点 出 现 数据 突变 的 情况 ， 如 突然 很 大 、 突 然 很 小 等 。 这 类 数据 可 能 是 由 于 系统 的 原因 造成 的 ， 这 些 数 据 不 能 简单 地 删除 ， 必 须 
进行 其 他 处 理 ， 一 般 可 以 采用 统计 方法 纠正 。 


这 里 采用 均值 滤波 算法 对 其 进行 处 理 ， 它 是 基于 统计 理论 的 一 种 能 有 效 抑制 噪音 的 非 线 性 信号 处 理 技术 ， 其 可 定义 如 下 : 
[g (x, y) =mean{f (s, t) , s, PERS (13-1) 


其 中 [g (x, y) ] 表示 (x, y) ] 点 的 输出 值 ， [Sxy] 表示 以 【 (x, y) ] 为 中 心 的 邻 域 ， [f (s, t) ] BHAT (x y) ] 为 中 心 的 邻 域内 [ (s, t) ] 点 输入 值 。 当 异常 点 规则 成 立时 ， 
[ (x, y) ] 为 异常 点 。 异 常规 则 如 下 : 


人 > 3std(f(s,t) ) | (1322) 


| Af( x,y) = f(x,y) 一 mean(f(s,t)) | 


在 对 数据 使 用 均值 滤波 算法 时 ， 本 例 选 取 该 数据 前 后 两 个 值 作为 邻 域 。 判 别 数据 异常 时 其 处 理 方法 如 下 : 去 掉 检 测 点 领域 内 5 个 数据 中 的 最 大 值 和 最 小 值 ， 剩 余 的 3 个 数据 ， 如 果 此 点 的 值 与 均值 的 差 大 
于 剩余 3 个 点 的 3 倍 标准 差 时 ， 识 别 其 为 异常 点 。 在 识别 异常 点 的 过 程 中 ， 会 存在 比较 接近 的 情况 ， 即 该 数据 会 与 其 平均 值 接近 ， 因 而 所 得 的 标准 差 会 特别 小 ， 在 判别 时 会 将 异常 数据 视 作 正常 数据 ， 为 此 采 
用 以 下 加 权 处 理 : 


std (f (s, t) ) =0.2*std (f (X, Y) ) +0.8*std (f (s, t) ) (13-3) 


其 中 std (f (X, Y) ) 为 总 体 数 据 标准 差 ， 这 里 为 简化 计算 只 取 该 时 间 序 列 的 前 100 个 数据 。 通 过 该 种 方法 处 理 ， 最 终 检测 出 70 个 异常 数据 情况 如 表 13-8 所 示 。 


表 13-8 滤波 检测 算法 下 异常 值 检测 结果 


13.24 ”构建 模型 


1.BP 神 经 网 络 模型 


BP 神 经 网 络 由 输入 层 、 一 层 或 多 层 隐 含 层 及 输出 层 构成 ， 学 习 过 程 由 信息 的 正 向 传播 和 误差 的 反 向 传播 两 部 分 组 成 ， 采 用 梯度 最 速 下 降 法 不 断 调整 权 值 ， 使 网 络 总 误差 达到 期 望 值 误差 以 下 ， 帮 助 研究 
人 员 简 化 工作 ， 达 到 根据 输入 数据 智能 推理 系统 输出 的 目的 。 本 章 建立 混 凝 投药 过 程 的 变量 关系 ， 由 上 面 的 分 析 可 知 ， 变 量 间 的 关系 属于 非 线 性 关系 ， 同 时 也 满足 神经 网 络 的 构建 条 件 ， 故 可 以 利用 神经 了 网 
络 结构 来 建立 彼此 之 间 的 联系 。 


本 节 利 用 BP 神经 网 络 建 立 系统 模 型 时 ， 其 输入 输出 层 节点 数目 由 系统 输入 输出 变量 数 客观 确定 。 通 过 前 面 对 投 药 量 影响 因素 的 分 析 可 知 ， 影 响 投药 量 的 关键 因素 有 取水 量 、 原 水 湿度 、 原 水 pH 和 出 水 浊 
度 ， 因 此 神经 网 络 模型 的 输入 变量 为 4 个 ， 分 别 为 取水 量 、 原 水 浊 度 、 原 水 PH、 混 凝 剂 的 投 加 量 即 投药 量 ， 输 出 变量 为 出 水 浊 度 ， 其 神经 网 络 模型 结构 如 图 13-6 所 示 。 
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图 13-6” 混 凝 投药 神经 网 络 结构 图 


鉴于 模型 的 准确 度 和 网 络 结构 的 复杂 性 ， 这 里 对 隐 含 层 神经 元 节点 数 分 别 从 8~ 17 选 取 ， 且 隐 含 层 神经 元 节点 的 激励 函数 分 别 选 用 TANSIG 和 LOGsIG 函 数 ， 从 而 构成 20 种 神经 网 络 模型 。 对 这 20 种 模型 
结构 分 别 进行 训练 ， 规 定 各 种 模型 训练 的 最 大 训练 次 数 为 5200， 网 络 结束 训练 的 条 件 是 当 网 络 相对 误差 平方 和 均值 误 E 达 到 预先 设 定 的 精度 0.001， 训 练 结束 时 得 到 的 网 络 模型 就 是 所 需 的 混 凝 剂 投 加 量 神经 


网 络 模型 。 


BP 网 络 学 习 的 过 程 实际 就 是 在 样本 输入 数据 下 ， 根 据 性 能 准则 函数 不 断 修 改 各 层 各 节点 之 间 的 连接 权 种 ， 最 终 获 得 权 值 矩 阵 的 过 程 。 在 本 模型 中 ， 输 入 节点 数 j=3， 中 间 节 点 数 =9~16， 输 出 节点 数 
k=1， 读 入 样本 集 后 ， 对 每 个 样本 p 做 如 下 计算 。 


1) 前 馈 计算 各 层 节点 输出 。 


对 隐 合 单元 : 
3 
net, = 2. W,X,;, O, = f(net,) (13-4) 
T 
对 输出 层 单元 
" 
net, — p ww, 0, = f(net,) (13-5) 


计算 每 个 样本 p 的 输出 误差 Ep: 
E, 2 —d,-29,) (13-6) 


若 误差 达到 指定 要 求 ， 学 习 结束 ， 否 则 进入 第 2) 步 ， 即 从 输出 层 反 向 传播 ， 逐 层 修改 权 值 ， 直 到 误差 满足 要 求 为 止 。 
2) RES SAA, 
输出 层 权 系数 的 调整 : 
P T d ,P —E d TEE | 
w; (t+1) = w, (t) + 00,0, + al w, (t) T (t — 1) | (13-8) 


0 (t *1) = 6 (1) * 08,9, t al E(t) - 6(£—1) | (13-9) 


p pi 


隐 含 层 权 值 的 调整 


OO (13-10) 
I 


w(t +1) = w(t) + 6,0, + al w(t) — w(t -1) | (13-11) 
G.(t+1) = 0(t) + 76,0, + al Gi) —05(t — 1) | (13-12) 


随机 选用 预 处理 后 数据 表 中 的 3000 个 数据 作为 建 模 ，2/3 作 为 训练 数据 ，1/3 作 为 测试 数据 ， 具 体 可 见 “01- 示 例 数 据 / 预 处 理 后 数据 集 .xls” 中 的 建 模 数据 表 、 训 练 数据 表 、 测 试 数据 表 。 设 置 由 不 同 隐 
含 层 激励 函数 和 不 同 隐 含 层 点 数组 成 的 16 种 网 络 模型 分 别 进行 训练 和 泛 化 ， 得 到 各 种 模型 的 训练 误差 和 泛 化 误差 结果 如 表 13-9 所 示 。 


表 13-9 各 神经 网 络 训练 结果 对 比 
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由 表 13-9 可 知 ， 隐 含 层 节点 数 为 12， 隐 含 层 节点 激励 函数 为 LOGSIG 时 ， 模 型 的 训练 误差 和 校 验 误差 都 最 小 ， 达 到 训练 精度 要 求 时 的 训练 次 数 也 最 小 ， 其 中 训练 误差 为 1.24x 10-4， 校 验 误差 为 
0.0014， 训 练 次 数 为 32， 故 该 模型 为 性 能 最 优 的 神经 网 络 模型 。 

BP 网 络 泛 化 能 够 检验 训 | 练 好 的 网 络 模 型 对 未 认 知 的 样本 数据 是 否 具 有 较 好 的 推广 能 力 ， 将 泛 化 样本 输入 该 网 络 模 型 得 到 模型 泛 化 结果 如 图 13-7 所 示 。 
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图 13-7 BP 网 络 模型 泛 化 结果 


由 图 13-7 可 以 看 出 ， 该 网 络 输出 的 出 水 浊 度 预测 值 与 实际 值 基本 一 致 ， 说 明 该 网 络 模型 具有 较 强 的 推理 能 力 ， 可 以 较 准 确 地 估算 出 水 厂 过 程 的 投药 量 。 故 设 定 原水 pH、 原 水 浊 度 及 取水 量 ， 可 以 得 到 如 
表 13-10 所 示 的 最 佳 PAC 投 药 量 。 


表 13-10 ”最 佳 投药 量 与 原水 水 质数 据 及 流量 对 比 表 


Exp [ 33 T 33 o3 33 33 38 

Bik 5.78 
BAR mZ) 5372 
BEAR E 10. 6 


图 13-8~ 图 13-10 分 别 显示 了 pH、 取 水 流量 、 原 水 浊 度 对 最 佳 投药 量 的 影响 。 
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图 13-8 pH 对 最 佳 投药 量 的 影响 
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图 13-9 ”取水 流量 对 最 佳 投 药 量 的 影响 


50 33 60 65 70 TO 80 
图 13-10 ”原水 浊 度 对 最 佳 投药 量 的 影响 
2. 改 进 型 BP 神经 网 络 模 型 


(1) 基于 出 水 浊 度 的 改进 型 BP 神 经 网 络 


在 上 述 BP 神 经 网 络 模型 中 ， 主 要 对 絮凝 沉淀 过 程 进行 正 向 预测 ， 根 据 给 定 的 水 质数 据 和 供水 流量 使 出 水 浊 度 达到 正常 标准 来 控制 最 佳 投药 量 ， 而 在 本 章 问题 分 析 第 一 部 分 就 明确 指出 加 凝 沉淀 过 程 属于 
投药 反馈 控制 的 过 程 ， 由 于 反应 过 程 的 时 滞 性 ， 在 投药 时 还 要 考虑 上 一 次 投药 时 的 出 水 浊 度 ， 根 据 上 次 的 出 水 浊 度 来 调节 本 次 投入 的 最 佳 药物 量 ， 因 此 需要 将 出 水 浊 度 作为 输入 参数 ， 投 药 量 作为 输出 结果 
建立 BP 神 经 网 络 反馈 模型 ， 其 神经 网 络 结构 如 图 13-11 所 示 。 


输入 层 E E 输出 层 


原水 流量 


原水 湿度 


原水 pH 
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图 13-11 混 凝 投药 反馈 神经 网 络 结构 


将 泛 化 样本 输入 该 网 络 模 型 得 到 模型 泛 化 结果 如 图 13-12 所 示 。 由 图 13-12 可 以 看 出 ， 该 网 络 输出 的 投药 量 预测 值 与 生产 实际 中 的 投药 量 基 本 一 致 ， 由 此 可 以 根据 不 同 的 条 件 较 准确 地 控制 水 三 过 程 的 投 
Qe, 具体 可 见 表 13-11 和 图 13-13。 
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图 13-12 ”增加 出 水 浊 度 的 BP 神 经 网 络 反馈 控制 模型 泛 化 结果 
表 13-11 增加 出 水 浊 度 的 BP 神 经 网 络 反馈 控制 模型 下 的 最 佳 投药 量 


(2) 基于 温度 因素 的 改进 型 BP 神 经 网 络 


由 前 面 可 知 ， 温 度 能 影响 出 水 浊 度 ， 能 影响 药剂 溶解 速度 ， 水 温 的 变化 改变 了 胶体 自身 的 布朗 运动 动能 。 要 达到 目标 的 脱 稳 凝 聚 效果 ， 就 要 求 投 加 更 多 的 混 凝 剂 ， 使 排斥 能 峰 小 到 足以 克服 的 程度 ， 即 
温度 会 影响 最 佳 投药 量 。 水 温 低 时 粘度 很 大 ， 水 温 高 时 粘度 小 ， 其 具体 的 水 动力 粘度 数据 如 表 13-12 所 示 。 
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图 13-13 ”出 水 浊 度 对 最 佳 投药 量 的 影响 


表 13-12 ”水 动力 粘度 (10 6Pa s) 


由 于 附件 给 出 的 数据 集中 并 没有 温度 数据 集 ， 由 该 水 厂 位 于 广东 广州 南沙 区 可 知 其 水 质 来 源 为 珠江 ， 因 此 可 通过 珠江 水 利 网 查询 获得 该 水 厂 2013 年 8 月 22 日 至 2014 年 9 月 5 日 共计 380 个 水 温 数据 ， 具 体 
可 见 “01- 示 例 数 据 / 气 温 表 .xls”。 由 文献 13-4] 可 知 气 温和 水 温存 在 较 强 的 相关 性 ， 日 均 气 温和 水 温 的 关系 可 表示 为 : 


T,70.813*T,43.136 (13-13) 
其 中 Tw 表示 水 温 、To 表 示 气 温 ， 由 式 (13-13) 和 日 均 气温 数据 可 求 得 日 均 水 温 数 据 。 


由 于 原始 数据 都 是 24 小 时 的 瞬时 值 ， 故 需要 对 这 些 数据 进行 日 均 化 ， 这 些 数 据 为 时 间 序 列 数据 ， 取 8 月 22 日 的 数据 对 部 分 变量 作出 的 趋势 图 如 图 13-14~ 图 13-16 所 示 。 
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图 13-14 8/22 原 水 pH 一 天 内 的 变化 
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图 13-15 8/22 原 水 浊 度 一 天 内 的 变化 
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图 13-16 ”8/22 出 水 浊 度 一 天 内 的 变化 
由 此 可 知 这 些 变量 在 一 天 内 的 变化 有 些 呈 现 趋 势 变 化 ， 如 原水 pH， 有 些 则 没有 规律 ， 如 出 水 浊 度 等 ， 所 以 这 些 变量 不 能 采用 相同 的 方法 进行 日 均 化 。 由 于 时 间 等 间距 ， 故 对 于 起 伏 较 平稳 的 变量 ， 可 以 
直接 求 平均 的 方法 ， 对 于 起 伏 波 动 较 大 的 变量 ， 则 只 能 采用 图 像 积 分 面积 法 求 得 最 终 的 日 均 变 化 ， 其 中 由 于 PAC 的 单位 为 mg/L， 故 还 需 与 取水 量 数据 进行 乘积 后 再 进行 积分 均 化 ， 最 终 经 过 处 理 可 得 
到 “01- 示 例 数据 / 混 凝 投药 综合 因素 数据 表 .xlsx”.。 


本 部 分 在 基于 出 水 浊 度 的 改进 型 BP 神 经 网 络 模型 基础 上 增加 温度 输入 参数 ， 构 建新 的 三 层 结构 BP 神 经 网 络 模型 来 研究 温度 对 投药 量 的 影响 。 此 时 在 输入 层 中 ， 输 入 向 量 有 5 个 元 素 : 原水 温度 、 原 水 pH 
值 、 原 水 浊 度 、 取 水 量 和 出 水 浊 度 ， 输 出 层 则 只 有 投药 量 。 其 具体 的 神经 网 络 结构 如 图 13-17 所 示 。 


温度 


原水 诗 量 


原水 湿度 


原水 pH 


出 水 测度 


图 13-17 增加 温度 的 改进 型 BP 神经 网 络 结 构图 


根据 前 面 的 神经 网 络 结构 ， 由 于 输入 参数 增加 ， 所 以 需要 重新 寻找 最 优 的 隐 层 节点 数 ， 同 样 采 用 相同 的 方法 最 终 确定 隐 层 节点 数 为 12 最 佳 。 通 过 本 模型 改变 温度 输入 量 ， 最 终 得 到 最 佳 投药 量 随 温度 的 
变化 图 如 图 13-18 所 示 。 
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图 13-18 温度 对 最 佳 投药 量 的 影响 
3.RBF 神 经 网 络 模型 


RBF 神 经 网 络 结构 模型 较 BP 神 经 网 络 有 精度 高 、 训 | 练 速度 快 、 泛 化 能 力 强 等 优点 ， 故 可 以 将 上 述 改进 后 的 BP 神经 网 络 模 型 替换 为 RBF 神 经 网 络 算法 。 


RBF 神经 网 络 为 典型 的 三 层 前 馈 式 网 络 ， 包 括 输入 层 、 中 间 非 线性 处 理 层 和 线性 加 权 输 出 层 ， 隐 层 节点 作用 函数 为 RBF 函数 。 针 对 本 题 的 混 凝 投药 过 程 ， 输 入 、 输 出 参数 与 前 模型 相同 ，RBF 采 用 常用 的 
高 斯 基 消 数 ， 根 据 文献 选用 如 表 13-13 所 示 的 10 个 隐 层 节点 ， 阅 值 取 6.4241， 隐 层 高 斯 基 沙 数 中心 采 用 K- 均 值 聚 类 算法 确定 ， 输 出 层 权 值 通过 RLS 算 法 调节 。 


表 13-13” 隐 含 层 节点 权 系 数 


0. 2016 0. 3295 — 0. 0435 0. 3854 0. 5244 


通过 RBF 训练 后 形成 的 神经 网 络 结构 模型 做 出 的 预测 控制 量 能 够 与 实际 值 较 好 地 拟 合 ， 更 好 地 控制 投药 量 。 其 训练 的 泛 化 结果 如 图 13-19 所 示 。 
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图 13-19 ”RBF 神经 网 络 泛 化 结果 


根据 RBF 神 经 网 络 最 终 可 建立 如 图 13-20 所 示 的 闭环 预测 控制 系统 ， 其 工作 原理 为 : 基于 出 水 浊 度 的 RBF 神经 模型 对 未 来 的 出 水 浊 度 做 出 预测 ， 利 用 RBF 正 向 控制 投药 量 ， 通 过 系统 实际 输出 和 模型 预测 
输出 的 出 水 浊 度 差异 进行 反馈 校正 。 该 控制 系统 在 水 质 突变 时 ， 可 以 快速 响应 ， 在 保证 出 水 稳定 、 合 格 的 前 提 下 ， 迅 速 改变 PAC 投 加 ， 实 现 了 投药 量 的 实时 控制 。 
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图 13-20 ”基于 RBF 神经 网 络 模型 的 最 佳 投药 量 闭 环 预测 系统 


4. 模 型 分 析 


首先 采用 BP 神经 网 络 模型 对 出 水 测度 进行 标准 控制 ， 最 终 得 到 在 不 同 条 件 下 的 最 佳 投药 量 。 从 表 13-10 和 图 13-8~ 图 13-10 可 知 ，pH、 原 水 测度 以 及 取水 量 与 最 佳 投药 量 呈正 相关 ， 其 中 pH 对 最 佳 投药 
量 影响 非常 小 ， 取 水 量 对 最 佳 投药 量 影 响 较 大 ， 原 水 测度 对 药 量 影响 最 大 。 


接着 ， 增 加 出 水 浊 度 作为 神经 网 络 的 输入 量 ， 得 到 在 不 同 条 件 下 最 佳 投药 量 的 控制 ， 此 时 出 水 浊 度 作为 投药 量 的 反馈 控制 参数 。 从 表 13-11 和 图 13-13 可 知 ， 在 其 他 参数 不 变 的 情况 下 ， 出 水 浊 度 在 
1.0NTU 标 准 以 下 时 ， 最 佳 投药 量 都 会 减少 ， 但 是 出 水 浊 度 越 小 ， 则 药 量 减 少 得 越 多 ; 出 水 浊 度 在 1.0NTU 标 准 以 上 时 ， 最 佳 投药 量 都 会 增加 ， 但 是 出 水 浊 度 越 大 ， 则 药 量 增加 得 越 多 。 


增加 出 水 浊 度 后 ， 又 增加 了 温度 参数 作为 输入 量 ， 由 最 终结 果 可 知 在 0~ 10"C 时 ， 温 度 升 高 时 ， 最 佳 投药 量 会 有 所 增加 ; 在 10~25"C 时 ， 温 度 对 最 佳 投药 量 几乎 没有 影响 ， 而 在 25"C 后 ， 随 着 温度 的 增 
加 ， 由 于 温度 加 快 了 絮凝 反应 ， 并 且 减 小 了 水 的 粘度 ， 所 以 使 投药 量 减少 ， 其 具体 的 结果 可 见 图 13-18。 


最 后 ， 使 用 较 优 的 RBF 神经 网 络 蔡 换 BP 神 经 网 络 进行 处 理 ， 建 立 基 于 RBF 神经 网 络 模型 的 最 佳 投药 量 闭 环 预测 系统 。 对 比 RBF 神 经 网 络 模型 与 BP 神 经 网 络 模型 检验 结果 可 知 ，RBF 神 经 网 络 模型 可 以 较 
好 地 逼近 水 处 理 过 程 的 非 线 性 关系 ， 建 模 精 度 高 ， 训 练 时 间 短 ， 适 用 于 在 线 要 求 较 高 、 数 据 量 角 度 的 系统 模型 辨识 ， 其 具体 差异 见 表 13-14。 


表 13-14 RBF 与 BP 神经 网 络 误差 的 对 比 


指标 最 大 绝对 误差 


平均 绝对 误差 


最 大 相对 误差 


平均 相对 误差 


13.3 上 机 实验 


1. 实 验 目的 


: 掌握 使 用 回归 分 析 构 建 预测 模型 。 


n3 


“ 对 预 处 理 后 的 数据 集 (包含 “原水 pH ” “原水 浊 度 ”“ 出 水 浊 度 ”“ 取 水 量 ”“PAC 消 耗 ” 指 标 ， 其 中 “PAC 消 耗 ” 即 是 要 预测 的 指标 ) 使 用 云 平台 的 回归 分 析 模 型 建 模 ， 然 后 使 用 此 模型 来 预测 


PAC 消 耗 值 。 
3. 实 验方 法 与 步骤 
登录 TipDM-HB 数 据 挖 握 平台 后 ， 执 行 以 下 步骤 。 
(1) 数据 准备 
下 载 “02- 上 机 实验 / 建 模 数 据 集 .csv”。 
(2) 创建 方案 
登录 TipDM-HB 数 据 挖掘 平台 ， 在 “方案 管理 ”页 面 选择 “回归 分 析 ” 创 建 一 个 新 方案 。 


方案 名 称 : 基于 城市 供水 处 理 混 凝 投药 量 控制 预测 分 析 。 


方案 描述 : 通过 对 城市 供水 处 理 混 凝 投药 量 原 始 数据 进行 处 理 ， 得 到 “原水 pH” “原水 浊 度 ”“ 出 水 浊 度 ” “取水 量 ” 


企业 提供 参考 意见 。 


(3) 上 传 数据 


进入 “数据 管理 ”标签 页 ， 选 择 下 载 的 数据 并 上 传 ， 上 传 的 数据 将 自动 显示 在 列表 框 中 或 者 单 击 “刷新 ”按钮 刷新 数据 。 


(4) 回归 分 析 


选择 “系统 菜单 ”一 “ 云 算法 ”一 “ 云 回归 分 析 算 法 ”。 


1) 导入 数据 : 选择 “ 建 模 数 据 集 .csv” 文件 ， 点 击 “ 导 入 数据 ”按钮 。 
2) 参数 设置 : “训练 次 数 ”为 100，“ 内 部 随机 向 量 维度 ”为 20，“ 学 习 速 率 ” 为 50。 


3) 回归 分 析 : 对 导入 的 样本 数据 构建 回归 分 析 模 型 ， 分 析 回 归 建 模 过 程 中 输出 的 模型 相关 信息 。 


1) 云 平 台 回 归 分 析 算 法 对 输入 数据 的 格式 有 什么 要 求 ? 


2) 尝试 使 用 其 他 算法 来 预测 结果 ， 对 比 文中 各 个 模型 的 结果 。 


13.4 ”拓展 思考 


“PAC 消 耗 ” 建 模 数 据 ， 利 用 云 回归 分 析 算 法 分 析 预 测 混 凝 投药 量 ， 为 城市 供水 


回归 分 析 法 是 通过 大 量 观察 数据 利用 数理 统计 方法 建立 因 变量 与 自 变量 之 间 的 回归 遂 数 表达 式 的 一 种 方法 。 回 归 分 析 分 为 线性 回归 分 析 和 非 线 性 回归 分 析 ， 通 常 线性 回归 分 析 是 最 基本 的 分 析 方 法 ， 当 
遇 到 非 线性 回归 问题 时 可 以 借助 数学 手段 化 为 线性 回归 问题 处 理 ， 然 后 用 最 小 二 乘法 求 出 参数 的 估计 值 ， 最 后 经 过 适当 变换 ， 得 到 所 求 的 回归 方程 式 。 


混 凝 剂 投 加 量 与 各 因素 之 间 可 以 用 式 13-14 的 指数 形式 表示 : 


M = aC Q^ C? 


其 中 ，M 为 混 凝 剂 投 加 量 (mg/L) ，C0 为 原水 浊 度 (NTU) ，Q 为 取水 量 (m?/h) ，C 为 沉淀 池 出 水 浊 度 (NTU) 


(13-14) 


，a0、a1、a2、a3 为 待 估 参 数 。 为 简化 模型 ， 不 考虑 pH 值 和 出 水 浊 度 的 影响 。 


当 求 解 公式 (13-14) 的 各 参数 时 ， 根 据 反 应 到 结束 的 经 验 时 间 为 70~120min， 若 设 所 有 出 水 浊 度 预测 值 与 对 应 一 个 小 时 后 的 出 水 浊 度 实际 值 更 接近 的 次 数 为 h1， 与 两 个 小 时 后 的 出 水 浊 度 实际 值 更 接 


近 的 次 数 为 h2，At=1h， 则 从 原水 添加 渴 凝 剂 反应 到 沉淀 结束 所 需 的 时 间 可 以 表示 为 : 


AT = (1 


由 公式 (13-14) 可 看 出 投药 量 与 浊 度 和 流量 之 间 为 指数 非 线 性 关系 ， 这 种 指数 非 线 性 天 系 相对 比较 简单 ， 可 以 通过 取 对 数 实 现 指数 非 线性 到 线性 化 的 转换 ， 因 此 对 公式 (13-14) 两 边 取 对 数 得 : 


lnM=lnag+ allnCot aplnQt a3lnC1 


由 此 可 以 得 到 : 


ing, = Y Ina, + a,InC, + a,lnQ - InM) 


a, 
若 以 InC1 为 因 变量 ，InNM、InQ、InCo 为 自 变 量 ， 则 可 以 建立 多 元 线性 回归 模型 。 
设 y=InC1，x1=InM，x2=InQ，x1=InCo， 其 中 a0、a1、a2、a3 为 回归 系数 。 对 y 和 x1、x2、x3 分 别 进行 n 次 独立 观测 ， 得 到 n 组 数据 样本 : yn Xq, Xp. X3. (i01, 2, .., n), WA: 
y = Bo * Bixy + Pox. + B3%3 + 6, 


Bo + Bix + Box + Bux, + é, 


Y2 


j£ = Bo T BiXn T D;x,s t Bx, T €, 
其 中 se1，s1，...，sn 为 残 差 ， 且 相互 独立 ， 并 服从 N (0, 02) 分 布 。 
ytri 4 [i j 则 上 式 可 转化 为 矩阵 形式 表示 : 


, = XB +e 
e ~ N(0,o I.) 


从 经 过 数据 预 处 理 后 得 到 的 数据 ， 连 续 抽取 3000 个 数据 并 将 其 随机 分 成 6 个 样本 表 ， 为 确保 建立 的 模型 适应 于 各 种 浊 度 区 间 ， 在 随机 分 配 样本 表 时 ， 应 使 每 个 样本 集 表 中 都 包含 不 同 的 源 水 浊 度 区 间 ， 
并 任 取 其 中 的 5 个 数据 表 用 于 获得 模型 的 参数 ， 另 一 组 样本 表格 数据 用 于 检验 模型 的 有 效 性 。 应 用 上 述 线性 回归 描述 的 内 容 ， 求 出 最 佳 投药 量 。 


13.5. 小 结 


本 章 结合 城市 供水 处 理 混 凝 投 药 量 控制 分 析 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 神经 网 络 算法 在 实际 案例 中 的 应 用 。 对 城市 供水 处 理 混 凝 投 药 量 数据 进行 探索 分 析 ， 针 对 分 析 的 问题 ， 使 用 数据 预 处理 
方法 : 数据 清洗 、 数 据 变换 、 缺 失 值 处 理 、 异 常 值 处 理 等 进行 处 理 。 然 后 ， 根 据 处 理 后 的 数据 集 应 用 神经 网 络 模型 。 针 对 要 解决 的 投药 量 问 题 ， 综 合 考虑 可 能 影响 的 因素 ， 逐 步 改进 神经 网 络 模型 ， 最 终 达 
到 比较 好 的 效果 。 最 后 ， 针 对 投药 量 问 题 给 出 了 使 用 回归 分 析 来 分 析 的 拓展 思考 以 及 上 机 实验 ， 使 读者 可 以 举一反三 ， 开 拓 思 路 ! 


第 14 草 ”基于 图 像 处 理 的 车 辆 压 双 黄 线 检测 


141 ”背景 与 挖掘 目标 


随 着 我 国 国 民 经 济 的 高 速 发 展 ， 城 市 交通 道路 的 不 断 增多 ， 机 动车 辆 数量 及 道路 交通 流量 大 幅度 增加 ， 随 之 出 现 的 机 动车 辆 违法 现象 也 日 益 严 重 ， 给 人 民 和 群众 人 身 安 全 带 来 了 极 大 的 威胁 ， 影 响 了 正常 
的 城市 交通 秩序 ， 并 且 容 易 造成 城市 交通 堵塞 。 目 前 比较 多 见 ， 并 且 危 害 较 严 重 的 有 : ERNARI, EEA (GAL) 以 及 超速 行驶 。 智 能 交通 系统 (TS) 是 当前 交通 管理 发 展 的 主要 方向 ， 基 于 ITS 领 域 
的 各 项 先进 技术 已 经 广泛 应 用 于 各 地 交通 管理 部 门 。 


比如 ， 针 对 车 辆 是 否 压 双 黄 线 问 题 (如 图 14-1) ， 如 果 单 单 靠 人 工 来 辨识 ， 无 疑 是 耗 时 耗 力 的 一 件 事情 ， 那 是 否 可 以 通过 智能 硬件 以 及 互联 网 数据 分 析 、 挖 掘 技术 来 达到 自动 检测 呢 ? 


图 14-1 压 双 黄 线 图 像 
[1] 李 上 和 钦 ， 陈 琳 晓 .基于 图 像 处 理 和 数据 挖掘 技术 的 车 辆 压 双 黄 线 检测 .第 二 届 泰 迪 华 南 标 数据 挖掘 竞 赛 (http://www.tipdm.org) 优秀 作品 .) 


第 14 章 ”基于 图 像 处 理 的 车 辆 压 双 黄 线 检测 


14.1 背景 与 挖 扬 目 标 


随 着 我 国 国民 经 济 的 高 速 发 展 ， 城 市 交通 道路 的 不 断 增多 ， 机 动车 辆 数量 及 道路 交通 流量 大 幅度 增加 ， 随 之 出 现 的 机 动车 辆 违法 现象 也 日 益 严 重 ， 给 人 民 和 群众 人 身 安全 带 来 了 极 大 的 威胁 ， 影 响 了 正常 
的 城市 交通 秩序 ， 并 且 容易 造成 城市 交通 堵塞 。 目 前 比较 多 见 ， 并 且 危 害 较 严重 的 有 : Ree! EH (掉头 ) 以 及 超速 行驶 。 智 能 交通 系统 (ITS) 是 当前 交通 管理 发 展 的 主要 方向 ， 基 于 ITS 领 域 
的 各 项 先进 技术 已 经 广泛 应 用 于 各 地 交通 管理 部 门 。 

比如 ， 针 对 车 辆 是 否 压 双 黄 线 问题 (如 图 14-1) ， 如 果 单 单 靠 人 工 来 辨识 ， 无 疑 是 耗 时 耗 力 的 一 件 事情 ， 那 是 否 可 以 通过 智能 硬件 以 及 互联 网 数据 分 析 、 挖 掘 技术 来 达到 自动 检测 呢 ? 


p F- 


图 14-1 压 双 黄 线 图 像 
[1] 李 上 钦 ， 陈 琳 晓 .基于 图 像 处 理 和 数据 挖掘 技术 的 车 辆 压 双 黄 线 检测 .第 二 届 泰 迪 华 南 标 数据 挖掘 竞 赛 (http://www.tipdm.org) 优秀 作品 .) 


14.2 “分析 方法 与 过 程 


通过 分 析 样 本 图 像 ， 得 出 运动 车 辆 视频 图 像 的 基本 特征 ， 并 为 此 选 定 图 像 预 处 理 方法 。 同 时 ， 检 测 及 提取 运动 车 辆 视频 的 背景 。 用 变形 sobel| 算 子 加 大 双 黄 线 区 域 纹理 ， 分 割 出 图 像 中 双 黄 线 区 域 粗 略 位 
置 。 应 用 最 大 类 间 方 差 和 数学 形态 学 方法 求 出 满足 纹理 条 件 区 域 的 二 值 图 像 ， 从 而 得 到 双 黄 线 区 域 准 确 位 置 。 利 用 基于 背景 帧 差分 法 以 及 改进 的 高 斯 混合 模型 法 对 车 辆 运动 目标 进行 跟踪 检测 ， 提 取 数 据 信 
息 。 运 用 基于 HSV 颜 色 空间 变换 的 阴影 消除 算法 消除 阴影 对 检测 的 影响 。 根 据 监控 场景 中 车 辆 、 行 人、 摩托 车 、 自 行车 等 目标 在 形状 上 的 差异 ， 对 车 辆 进行 识别 ， 确 定 车 辆 是 否 压 双 黄 线 ， 实 现 车 辆 压 双 黄 
线 的 自动 检测 。 


由 图 14-2 知 ， 基 于 图 像 处 理 的 车 辆 压 双 黄 线 检测 的 数据 挖掘 分 析 主 要 包括 以 下 步骤 : 
1) 从 数据 源 中 抽取 出 历史 视频 数据 。 
2) 根据 历史 视频 数据 ， 进 行 数据 探索 分 析 ， 研 究 数据 的 缺失 和 异常 情况 ， 并 进一步 进行 预 处 理 。 


3) 数据 预 处 理 主要 是 对 图 像 数 据 进行 预 处 理 ， 包 括 道 路 双 黄 线 自 动 提取 、 道 路 背景 提取 、 运 动车 辆 提取 、 运 动车 辆 阴影 去 除 、 运 动车 辆 与 行人 区 分 等 ;针对 不 同 的 处 理应 用 不 同 的 技术 ， 如 均值 滤波 、 
变形 Sobel 算 子 、P- 参 数 和 最 大 类 间 | 方程 以 及 Otus 阅 值 化 技术 等 过 渡 图 像 数 据 。 


4) 经 过 数据 预 处 理 后 的 图 像 数 据 ， 应 用 车 辆 中 心 检测 方法 以 及 灰 度 帧 差 统计 方法 来 检测 车 辆 压 双 黄 线 。 


业务 系统 数据 抽取 数据 探索 与 预 处 理 kE BE& Hj 2h AR & t oi 


道路 双 黄 线 及 


图 14-2 ”基于 图 像 处 理 的 车 辆 压 双 黄 线 检测 的 数据 挖掘 分 析 流 程 


14-3 为 基于 图 像 处 理 和 数据 挖掘 技术 的 车 辆 压 双 黄 线 检测 流程 。 


从 车辆 监控 系统 中 抽取 出 并 汇总 2013 年 至 2014 年 的 道路 车 辆 监控 视频 ， 并 把 这 些 视频 按照 帧 来 分 割 ， 最 后 得 到 所 有 视频 的 图 片 。 


14.2.2 ”数据 探索 分 析 


图 像 数据 的 探索 的 主要 目的 是 找到 图 像 中 无 天 的 信息 ， 恢 复 有 用 的 真实 信息 ， 增 强 有 关 信 息 的 可 检测 性 和 最 大 限度 地 简化 数据 ， 从 而 改进 特征 抽取 、 图 像 分 割 的 可 靠 性 。 图 像 噪音 产生 的 原因 有 很 多 ， 


主要 是 系统 外 部 和 内 部 的 干扰 。 图 像 数据 探索 分 析 是 为 了 更 好 地 进行 图 像 数据 预 处 理 做 准备 。 图 像 处 理 中 常见 的 噪音 主要 有 以 下 几 种 : “加 性 噪音 ” “ 乘 性 噪音 ” “量化 噪音 ” “椒盐 噪音 ”， 本 章 采 用 均 
值 滤波 平滑 去 噪 减 少 图 像 噪音 。 


14.2.3 ”数据 预 处 理 


1. 道 路 双 黄 线 自 动 提取 标记 


根据 城市 道路 图 像 中 双 黄 线 区 域 的 特征 ， 用 变形 Sobel 算 子 加 大 双 黄 线 区 域 纹 理 ， 分 割 出 图 像 中 双 黄 线 区 域 粗略 位 置 。 应 用 最 大 类 间 方 差 和 数学 形态 学 方法 求 出 满足 纹理 条 件 区 域 的 二 值 图 像 ， 从 而 得 到 


双 黄 线 区 域 准确 位 置 。 


(1) 用 变形 Sobel 算 子 加 大 双 黄 线 区 域 纹理 


设 图 像 中 双 黄 线 位 置 的 三 个 小 区 域 的 宽度 相等 ， 并 且 宽 度 为 w， 取 n=w+2，w/2+2，w/4+2; 如 果 递 归 地 多 次 使 用 新 定义 的 变形 Sobel| 算 子 对 图 像 进行 模板 运算 ， 双 黄 线 区 域 特 征 不 仅 不 会 消失 ， 而 且 


在 运算 后 会 得 到 更 清晰 、 更 有 规律 的 双 黄 线 区 域 纹理 特征 图 像 。 用 上 面 定义 运算 得 到 的 道路 双 黄 线 区 域 纹理 特征 情况 如 图 14-4 所 示 。 


(2) 双 黄 线 区 域 二 值 图 像 的 获取 


设 如 果 道 路 中 车 辆 密集 ， 遮 挡住 了 黄 线 区域， 这 样 的 图 像 不 能 用 来 提取 双 黄 线 位 置 。 根 据 图 像 用 新 模板 运算 后 产生 的 双 黄 线 区 域 纹理 特 征 ， 可 以 粗略 地 确定 双 黄 线 所 在 位 置 ， 不 满足 纹理 特征 的 图 像 区 


域 ， 则 可 以 认为 是 噪音 区 域 ， 而 在 进一步 的 处 理 中 不 需要 再 考虑 。 把 满足 纹理 条 件 的 原 灰 度 图 像 区 域 分 割 出 来 ， 对 分 割 出 的 原 灰 度 图 像 区 域 使 用 动态 全 局 二 值 化 方法 求 出 它 的 二 值 图 。 
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a) 道路 图 像 b) 杰 形 Sobel 算 子 运算 后 图 像 


图 14-4 道路 图 像 和 变形 Sobel 算 子 运算 后 图 像 


这 样 计算 出 的 二 值 图 像 (图 14-5a) 还 存在 很 大 的 噪音 ， 进 一 步 根据 双 黄 线 区 域 形态 特征 ， 运 用 数学 形态 学 方法 对 二 值 图 像 进行 多 次 腐蚀 和 膨胀 运算 ， 可 以 很 好 地 去 除 图 像 中 不 满足 双 黄 线 区 域 特征 的 


噪音 点 ， 最 终 得 到 的 二 值 化 图 像 效 果 如 图 14-5b 所 示 。 


a) 处 理 前 b) 处 青 后 


图 14-5 ”二 值 图 像 处 理 前 后 
(3) 统计 优化 二 值 图 像 ， 确 定 双 黄 线 区 域 


在 实际 监控 中 ， 路 面 图 像 双 黄 线 位 置 是 静止 不 动 的 ， 而 车 辆 本 身 和 阴影 等 噪音 干扰 是 随机 出 现 的 。 设 连续 采集 到 一 批 道 路 二 值 图 像 数 目 y， 统 计 3 个 二 值 图 像 中 对 应 的 每 个 像素 点 颜色 出 现 次 数 ， 取 颜色 
出 现 次 数 阔 值 p (p<S) ， 设 每 个 图 像 为 fk (x,y) (x=1...m, y=1..n, k=1...s) ， 由 此 最 后 确定 的 二 值 图 像 9 (x, y) 可 表示 如 下 : 


L> f(xy) 2p 
k=l 


g(x,y) = : 
0» A(x,y) «p 


k=] 


14-6 为 经 过 自动 提取 并 标记 后 的 图 像 双 黄 线 区 域 ， 实 际 结果 表明 求 出 的 双 黄 线 区 域 效 果 良 好 。 


图 14-6 “自动 提取 并 标记 后 的 图 像 双 黄 线 区 域 


背景 差分 的 基本 原理 是 利用 两 帧 图 像 之 间 的 差 来 判断 物体 的 出 现 和 运动 ， 背 景 差 分 法 用 序列 中 的 每 一 帧 与 一 个 固定 的 静 比 参考 帧 (不 存在 任何 运动 物体 ) 做 图 像 差 。 


背景 差分 法 是 最 常用 、 最 有 效 的 交通 视频 处 理 模 式 ， 而 背景 估计 正 是 背景 差分 法 的 基础 和 核心 环节 。 背 景 估计 有 很 多 方法 ， 这 里 采用 效果 较 好 且 效 率 相对 较 高 的 均值 法 ， 即 任意 像素 点 的 背景 信息 由 序 
列 图 像 中 对 应 像素 点 颜色 的 均值 来 确定 ， 公 式 如 下 : 


图 14-7 为 背景 获取 随 N 值 变化 的 情况 。 


N 取 值 越 大 ,合成 背景 越 好 ， 但 实际 上 随 着 时 间 推 移 ， 光 线 不 断 变化 ， 再 考虑 到 时 间 因素 ，N 取 100~200 比 较 合适 。 


(1) 背景 更 新 
由 于 环境 光线 在 不 断 变 化 ， 要 准确 检测 出 运动 车 辆 ， 需 要 及 时 更 新 背景 ， 接 下 来 在 获得 初始 图 像 的 基础 上 更 新 背景 。 通 过 计算 当前 帧 和 背景 帧 的 差 值 ， 得 到 当前 背景 差分 图 像 Dk (i, j) ， 有 : 


Dk G, j) =I G, j) —Bk G, j) | 


al, (i,j) +(1-a)B,(i,j)  B,(1,)) =0 


实验 证 明 : 上 式 中 co 取 0.1 时 效果 比较 好 ， 即 表明 在 新 的 背景 中 ， 原 来 的 背景 占有 90% 的 比例 ， 这 一 点 也 是 符合 实际 的 ， 背 景 之 间 的 变化 只 能 是 渐变 的 ， 所 以 在 相 邻 的 背景 之 间 有 很 大 的 相似 性 ， 利 用 上 
面 这 种 动态 的 背景 更 新 方法 ， 可 以 获得 比较 理想 的 结果 。 


B, (ij) - | 


这 种 方法 虽然 在 开始 时 要 损失 一 段 时 间 ， 用 中 值 法 来 抽取 背景 ， 但 是 在 得 到 理想 背景 的 条 件 下 ， 用 二 值 背 景 差 分 图 像 来 更 新 ， 可 以 减少 计算 量 ， 确 保 系统 的 实时 性 。 


(2) 阅 值 选取 


对 于 不 同 光线 背景 下 的 差分 图 像 ， 用 固定 的 阐 值 1 进 行 二 值 化 显然 不 能 使 每 一 帧 图 像 都 达到 很 好 的 效果 。 希 望 得 到 的 辣 值 不 仅 可 以 将 目标 从 背景 中 分 离 出 来 ， 而 且 要 能 根据 不 同 的 图 像 来 智能 地 选取 。 这 
里 采用 Otus 立 值 化 技术 ， 以 简化 阅 值 的 选取 。 


N=150 帧 真实 背景 


图 14-7 背景 获取 随 N 值 变化 情况 


图 14-8 所 示 的 差分 图 像 经 过 计算 得 到 的 二 值 化 处 理 的 阐 值 为 T=35。 用 Otus 法 求 阐 值 ， 不 管 图 像 的 直方 图 有 无 明显 的 双 峰 ， 都 能 得 到 较 满意 的 结果 ， 这 种 方法 是 全 局 立 值 自动 选择 的 最 优 方法 。 


在 车 辆 违章 检测 中 ， 由 于 阴影 和 被 测 目 标 粘 连 ， 导 致 阴影 容易 被 误 认 为 运动 目标 的 一 部 分 ， 而 对 运动 目标 的 检测 产生 不 利 的 影响 ， 因 此 阴影 分 割 是 保证 运动 目标 检测 准确 性 的 前 提 。 


2) 差分 图 像 b) Otus 方 法 处 理 后 的 二 值 化 图 像 


图 14-8 差分 图 像 和 Ortus 方 法 处 理 后 的 二 值 化 图 像 
(1) 基于 彩色 检测 线 线 间 差分 的 目标 区 域 的 阴影 分 割 
在 车 辆 违章 检测 中 ， 由 于 阴影 和 被 测 目标 粘 连 ， 导 致 阴影 容易 被 误 认 为 运动 目标 的 一 部 分 ， 而 对 运动 目标 的 检测 产生 不 利 的 影响 。 常 见 的 阴影 分 割 方法 有 : 
1) 基于 HSV 色 彩 空间 变换 的 阴影 分 割 |。 
2) 基于 阴影 特征 的 阴影 分 割 方法 。 


在 实际 检测 系统 中 ， 摄 像 机 一 般 固定 在 公路 的 正 上 方 ， 摄 像 头 方向 为 前 下 方 ， 在 短 时 间 内 ， 摄 像 机 获取 的 图 像 序列 中 ， 车 辆 阴影 的 方向 是 确定 的 ， 因 此 可 根据 阴影 方向 对 车 辆 所 在 运动 区 域 建立 车 辆 - 
阴影 模型 。 根 据 产生 阴影 的 经 验 情况 可 确定 阴影 相对 于 车 辆 的 方向 有 下 方 、 上 方 、 左 方 、 右 方 、 左 上 方 (为 单 向 的 车 辆 阴影 模型 ， 即 车 辆 和 阴影 间 只 有 1 条 分 界线 ) 、 右 下 方 、 左 下 方 、 右 下 方 ”( 为 双向 的 车 
辆 阴影 模型 ， 即 车 辆 和 阴影 间 有 2 条 分 界线 ) 8 种 。 由 于 高 于 背景 亮度 的 车 辆 的 灰 度 值 远大 于 车 辆 阴影 的 灰 度 值 ， 所 以 选择 高 亮度 车 辆 形成 的 运动 区 域 来 判决 模型 ， 以 提高 判决 的 准确 性 。 因 此 ， 找 到 分 界线 
便 可 消除 阴影 。 


(2) 判断 车 辆 阴影 的 模型 


由 于 本 案例 针对 车 辆 压 双 黄 线 检测 ， 只 需 考虑 车 辆 左右 两 侧 阴 影 对 检测 的 影响 ， 所 以 这 里 以 单 向 左 侧 的 车 辆 阴影 模型 为 例 说 明 消 除 阴 影 的 方法 。 要 消除 阴影 影响 关键 是 找到 阴影 与 车 辆 边缘 的 分 界线 ， 
又 由 于 摄像 机 一 般 倾斜 向 前 下 方 ， 拍 摄 运动 目标 存在 畸变 性 ， 导 致 阴影 与 车 辆 的 分 割 线 是 倾斜 的 。 如 图 14-9 所 示 。 


1) 在 目标 区 域内 从 阴影 方向 (AM) 任意 确定 两 条 检测 线 向 右 搜索 ， 在 搜索 过 程 中 ， 需 要 增 大 两 检测 线 的 间距 ， 到 接近 右边 框 搜索 终止 。 


2) 计算 目标 区 域 左边 一 小 块 阴影 区 的 饱和 度 方差 Qs 和 亮度 方差 Qr+， 同 时 计算 背景 图 像 上 对 应 两 条 检测 线 处 所 有 像素 灰 度 的 均值 uy 和 方差 9q。 


3) 由 于 阴影 与 车 体 像素 间 的 强度 V、 色 彩 饱 和 度 S 差 别 较 大 ， 当 两 条 MM e/a 多 区 进入 车 体 后 ， 可 以 借助 检测 线 上 的 像素 点 在 HSV 空 间 中 的 特征 信息 搜索 到 车 辆 与 阴影 的 跳 变 


点 。 假 设 两 条 检测 线 为 1、a2， 则 a1、a2 从 左边 起 第 i 个 像素 的 强度 和 色彩 饱和 度 分 别 为 ““、“";，%、”% 初 始 i=1， 其 流程 图 如 图 14-10 所 示 。 


a) 车 辆 阴影 模型 b) 车 辆 目标 区 域 与 方 回 检测 线 


图 14-9 车辆 阴影 模型 和 车 辆 目标 区 域 与 方向 检测 线 


利用 两 条 检测 线 


向 前 
| _ 
i VR DEZE f 一 是 否 确定 为 阴影 
线 上 。 | 所 在 的 检测 线 与 车 辆 的 分 界线 
tp | 

素 点 


Aft HT EJ AR 
引起 跳 变 


A FEDES ld ER PA ii 


像素 确定 分 界 点 位 置 是 个 合理 


是 否 找到 "CE 


利用 检测 线 上 的 色 
度 信息 确定 分 界 


图 14-10 “寻找 分 界 点 流程 图 


4) 两 检测 线 上 的 像素 间 的 亮度 和 饱和 度 的 绝对 差 值 Dv 和 Ds 可 由 下 式 计 算得 到 : 


Dv> k-Ds (k 为 乘积 因子 ) 时 ， 检 测 线 在 像素 处 出 现 了 强度 跳 变 ， 判 断 跳 变 由 Cf 公式 确定 ，R 为 车 道 线 标志 ，R=1 表 示 跳 变 是 由 阴影 区 车 道 线 引 起 的 ，i 不 能 作为 阴影 和 车 辆 的 分 界 点 ，R=0 表 示 该 跳 变 有 
效 ，t 为 像素 数 临 界 值 。F 为 区 分 标志 ，F= 1 表示 像素 两 边 是 两 个 强度 不 同 的 区 域 ， 因 此 是 分 界 点 ，F=0 表 示 跳 变 为 干扰 或 误 判 ; 9 为 乘积 因子 ; P 为 区 域 长 度 。 


"EC IV — Vage |> | Vass -Vo | " 1 È DO) MT 


TEM 
a, 其 他 0 其 他 
p p 
R = | b(j) > 内 +a6 e N(])) F ] > Ci +m) 一 » Ci - m) > gô, 
= m m -— m=] m=1 
0 其 他 
0 其 他 
对 于 一 些 像素 特征 值 与 阴影 非常 相似 的 车 辆 (如 深 黑色 车 辆 ) ， 可 以 计算 检测 线 两 端 一 定数 量 的 像素 均值 ， 然 后 从 左 向 右 在 检测 线 上 找 一 个 像素 值 等 于 该 均值 的 像素 点 ， 将 该 点 看 作 分 界 点， 两 条 检测 
线 可 以 得 到 A、B 两 分 界 点 ， 连 接 两 分 界 点 得 到 车 辆 阴影 分 割 线 ， 用 搜索 A 分 界 点 的 方法 可 以 搜索 另 一 分 界 点 B。 


研究 者 指出 : 上 述 基 于 彩色 检测 线 的 线 间 差分 阴影 消除 方法 ， 由 于 利用 了 检测 线 在 HSV 空 间 的 颜色 特性 ， 参 考 了 检测 线 在 灰 度 空间 中 的 背景 图 像 ， 因 此 不 但 噪音 抑制 性 强 ， 而 且 提高 了 低 亮度 车 辆 的 阴 
影 消除 效果 ， 增 强 了 阴影 消除 的 稳定 性 。 同 时 ， 本 例 应 用 的 方法 主要 是 对 检测 线 和 方向 线 等 几 条 线 上 的 像素 进行 处 理 ， 因 此 该 方法 具有 较 高 的 可 靠 性 和 较 好 的 实时 性 ， 如 图 14-11 所 示 。 


图 14-11 带 有 阴影 的 车 ( 左 ) 、 去 阴影 后 的 车 〈 右 ) 和 去 阴影 后 检测 车 并 用 方 框框 出 的 效果 图 CT) 


使 用 编写 的 程序 代码 智能 检测 分 析出 的 区 域 ， 找 到 包含 这 些 区 域 的 最 小 矩形， 并 就 此 忽略 像素 面积 小 于 一 定 立 值 的 跟踪 对 象 ， 比 如 ， 可 将 阅 值 1 设 为 100， 青 根据 运动 车 辆 与 (fr) 人 的 高 宽 比 存在 差异 
来 区 分 ( 行 ) 人 与 运动 车 辆 ， 本 例 中 ， 暂 上 且 忽略 高 与 宽 之 比 大 于 2 的 区 域 (默认 为 ( 行 ) 人 的 区 域 ) 。 


利用 基于 机 器 视觉 的 车 辆 检测 、 跟 踪 技 术 以 及 图 像 处 理 拷 术 ， 对 道路 监测 系统 中 和 车辆 压 双 黄 线 的 视频 图 像 进行 处 理 和 综合 分 析 。 


对 道路 监控 视频 中 运动 车 辆 进行 压 双 黄 线 检测 ， 是 本 章 建 模 的 核心 内 容 。 下 面 是 几 种 常见 的 检测 方法 。 


文献 提出 了 一 种 通过 检测 车 辆 中 心 位 置 ， 并 根据 车 辆 的 中 心 位 置 与 黄 线 的 距离 来 判断 是 否 有 压 黄 线 。 该 方法 可 以 有 效 检测 压 黄 线 违 章 ， 对 压 线 违 章 的 识别 率 高 于 90.09%， 虚 惊 率 低 于 9.01%。 但 是 ,还 
是 存在 车 辆 检测 准确 率 不 高 、 计 算 复杂 的 问题 ， 在 克服 天 气 变 化 、 复 杂 环 境 及 周围 车 辆 的 影响 等 方面 存在 不 足 。 


这 里 借鉴 车 辆 阔 红 灯 违 章 检测 的 方法 ， 首 先 求 得 前 后 帧 或 与 背景 帧 差 ， 然 后 统计 灰 度 变化 点 数 ， 最 后 判断 如 果 灰 度 变化 点 数 大 于 设 定 门限 ， 则 认为 有 车 辆 压 黄 线 违章 。 考 虑 到 压 黄 线 违 章 检 测 的 特殊 
性 ， 这 里 对 抓拍 到 的 图 像 在 感 兴趣 区 域 逐 行 求 灰 度 平 均 ， 并 以 此 灰 度 平均 代表 该 行 处 的 黄 线 状态 ; 然后 比较 ， 如 果 前 后 帧 (或 与 背景 帧 ) 之 间 逐 行 灰 度 平均 之 差 大 于 预先 设 定 疹 值 ， 则 认为 该 行 处 黄 线 残 
Uk; 再 统计 黄 线 连续 残缺 的 最 大 长 度 ， 以 此 长 度 作为 是 否 有 和 车辆 压 黄 线 的 依据 ; 最 后 判断 如 果 黄 线 残缺 最 大 长 度 大 于 预 设 闪 值 ， 则 认为 有 车 压 黄 线 违 章 ， 抓 拍 。 


参照 图 14-12， 灰 度 帧 差 统计 方法 的 主要 步骤 如 下 : 

1) 捕捉 图 像 ， 对 感 兴 趣 区 域 逐 行 求 灰 度 G 平 均 。 

2) 与 背景 比较 ， 如 果 灰 度 变 化 大 于 阔 值 ， 则 认为 黄 线 有 残缺 ，cha [i] =1。 
3) 统计 cha [i] 连续 为 1 的 最 大 加 权 长 度 MaxLength。 

4) 如 果 MaxLength 大 于 设 定 阅 值 ， 则 判定 为 有 车 压 黄 线 ， 抓 拍 。 

5) 更 新 背景 ， 而 对 于 背景 法 是 通过 背景 更 新 算法 更 新 以 维持 系统 当前 背景 。 


在 结合 基于 彩色 检测 线 的 线 间 差分 的 阴影 消除 方法 的 基础 上 ， 可 以 有 效 克 服 阴 影 的 影响 。 这 种 方法 可 以 快速 、 有 效 地 检测 车 辆 压 黄 线 违章 。 
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图 14-12 ” 灰 度 帧 差 统计 方法 检测 流程 图 


14.3 上 机 实验 


1. 实 验 目的 


掌握 提取 图 片 具体 部 件 的 方法 。 


使 用 “02- 上 机 实验 /1.wmv” 视 频数 据 ， 首 先 按照 帧 来 分 割 视频 得 到 图 片 数 据 ， 然 后 对 图 片 数 据 提取 运行 车 辆 。 了 和 解 将 视频 分 割 为 图 片 以 及 提取 图 片 具体 部 件 的 方法 。 
3. 实 验方 法 与 步骤 

1) 使 用 视频 处 理 软件 对 视频 数据 进行 处 理 ， 把 视频 数据 的 每 一 帧 分 割 出 来 ， 得 到 所 有 帧 的 图 片 ， 

2) 针对 每 一 帧 图 片 ， 采 用 其 前 后 各 5 张 相 邻 帧 图 片 作 为 参考 ， 对 当前 帧 图 片 的 背景 进行 更 新 ， 


3) 使 用 Otus 靖 值 化 技术 ， 对 所 有 帧 图 片 进行 二 值 化 处 理 ， 从 而 提取 出 运动 的 车 辆 。 


1) 使 用 相 天 图 片 处 理 软件 ， 对 视频 数据 进行 分 割 。 


2) 除了 上 面 提 到 的 Otus 技 术 ， 提 取 图 片 内 物体 的 区 域 还 有 哪些 方法 ? 


14.4 ”拓展 思考 


INT 


基于 交通 安全 的 考虑 ， 提 出 基于 图 像 处 理 的 安全 带 佩 戴 识 别 系统 ， 通 过 提醒 、 和 警告 等 交通 管理 手段 ， 提 高 驾驶 员 遵守 交通 法 律 法 规 的 意识 ， 从 而 达到 减少 交通 事故 中 人 员 伤 亡 的 效果 。 


尝试 通过 光盘 中 的 道路 监控 视频 ， 实 现 基 于 图 像 处 理 的 安全 带 佩 戴 识别 系统 ， 对 违规 车 辆 进行 标记 。 


14.5 ”小结 


本 章 结合 基于 图 像 处 理 的 车 辆 压 双 黄 线 检测 的 案例 ， 重 点 介绍 了 数据 挖掘 算法 中 针对 图 像 数据 的 处 理 方法 ， 即 首先 分 析 问 题 的 解决 需要 得 到 哪些 数据 。 接 着 ， 对 图 像 数据 进行 探索 分 析 ， 得 出 图 像 数据 
存在 的 问题 ， 便 于 在 数据 预 处 理 中 解决 。 在 图 像 数据 的 预 处 理 中 ， 针 对 车 辆 压 双 黄 线 问 题 ， 进 行 了 道路 双 黄 线 标记 自动 提取 、 道 路 背景 提取 、 运 动车 辆 提取 、 运 动车 辆 阴影 去 除 、 运 动车 辆 与 行人 的 区 分 处 
理 。 充 分 应 用 相关 数学 模型 ， 如 均值 滤波 、 变 形 Sobel 算 子 、P- 参 数 和 最 大 类 间 方 差 、Otus 阅 值 化 技术 对 图 像 数 据 进行 处 理 。 最 后 ， 应 用 和 车辆 压 双 黄 线 检测 方法 来 检测 预 处 理 后 的 图 片 数据 ， 实 现 车 辆 压 双 
黄 线 自动 检测 。 
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第 15 章 “基于 Mahout 的 大 数据 挖掘 开发 


目前 ， 基 于 Hadoop 框 架 的 大 数据 开发 的 数据 挖掘 算法 库 一 Mahout 已 经 相当 成 熟 ，Mahout 在 MapReduce 模 式 下 封装 实现 了 大 量 数据 挖掘 经 典 算法 ， 为 Hadoop 开 发 人 员 提供 了 数据 建 模 的 标准 ， 
从 而 大 大 降低 了 大 数据 应 用 中 并 行 挖掘 产品 的 开发 难度 。 本 章 详细 分 析 了 如 何 利用 Mahout 进 行 基于 Hadoop 框 架 的 大 数据 挖掘 开发 ， 介 绍 如 何 利用 Mahout 来 构建 自己 的 数据 挖掘 平台 ， 即 如 何 把 Mahout 
加 入 到 自己 的 项 目 中 [12-1] 。 


15.1 概述 


Hadoop 的 相关 章节 请 参考 第 2 章 。 


Mahout 是 Apache 软 件 基金 会 旗下 的 一 个 基于 Hadoop 的 机 器 学 习 和 数据 挖掘 的 分 布 式 框 架 ， 提 供 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 的 实现 ， 旨 在 帮助 开 帮 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。 
经 典 算 法 包括 聚 类 、 分 类 、 关 联 规 则 、 协 同 过 滤 等 。 


表 15-1 为 Mahout 目 前 支持 的 算法 。 
表 15-1 Mahout 支 持 的 算法 
Logistic Regression 逻辑 回归 
Naive Bayesian/ Complementary Naive Bayesian 朴素 /完整 贝 叶 斯 
Random Forests 随机 森林 
Hidden Markov Models Ec Hy AR AS] REA 


算法 类 中 文 名 


Canopy Clustering Canopy R% 
K- Means Clustering KHERI 


Fuzzy K- Means 模糊 下 均值 
Spectral Clustering GRA 
关联 规则 控 据 Parallel FP Growth Algorithm 并 行 FP Growth 算法 


| singular Value Decomposition ay FEEL) BE 
ETIE 


Principal Components Analysis 主 成 分 分 析 
User- Based Collaborative Filtering 基于 用 户 的 协同 过 滤 
ltem- Based Collaborative Filtering 基于 项 目的 协同 过 滤 


15.2 “环境 配置 


官网 发 行 的 Mahout 0.9 不 支持 Hadoop 2.x， 如 果 需 要 使 用 Mahout 0.9， 则 在 安装 前 需要 下 载 源码 重新 编译 。 


1) 下 载 Mahout 0.9 源 码 、patch 和 二 进 制 安装 包 。 


ttp://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9-src.tar.gz 
tps://issues.apache.org/jira/secure/attachment/12630146/1329-3.patch 
ttp://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz 


[hadoop@master ~]Swge 
[hadoop@master ~] Swge 
[hadoop@master ~]Swge 


ct ct ¢ 
dD DD 


解压 源码 ， 进 入 源码 根 目录 执行 以 下 命令 : 


[root@master mahout-distribution-0.9]$patch -p0 < http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15516/OEBPS/Text/. ./1329-3.patch 
patching file core/pom.xml 

patching file integration/pom. xml 

patching file pom.xml 


2) 安装 Maven。 


下 载 Maven 3.3.1 并 解压 ， 设 置 环境 变量 。 


[hadoopémaster~]Swget http://mirrors.cnnic.cn/apache/maven/maven-3/3.3.1/binaries/apache-maven-3.3.1-bin.tar.gz 
[hadoopémaster ~]Star -zxf apache-maven-3.3.1-bin.tar.gz -C ~/local/opt 

[hadoopémaster ~]Ssudo vim /etc/profile 

# 添加 如 下 内 容 
export MAVEN HOME-/home/hadoop/local/opt/apache-maven-3.3.1 
export PATH=${PATH}:${MAVEN HOME ] /bin 

# 使 修改 生效 


[hadoop@émaster ~]Ssudo source /etc/profile 


3) 编译 Mahout 0.9, 


进入 Mahout 源 码 根 上 目录， 运行 下 面 的 命令 。 


[hadoop@master mahout-distribution-0.9]Smvn package -Prelease -Dhadoop2 -Dhadoop2.version-2.6.0 -DskipTests-true 


编译 成 功 后 ， 解 压 下 载 的 Mahout 二 进 制 包 ， 并 蔡 换 根 目录 中 的 以 下 jar 文 件 。 


mahout-core-0.9.jar 
mahout-core-0.9-job.jar 
mahout-examples-0.9.jar 
mahout-examples-0.9-job.jar 
mahout-integration-0.9.jar 
mahout-math-0.9.jar 


ererercer cere 


4) 配置 环境 变量 。 


编辑 ~/.bashrc， 在 末尾 追加 Mahout 配 置 。 


export MAHOUT HOME-SHOME/local/opt/mahout-distribution-0.9 
export MAHOUT CONF DIR-$MAHOUT HOME/conf 
export PATH-SPATH:S$MAHOUT HOME/bin 


执行 source~/.bashrc 使 配置 立即 生效 。 
5) 测试 Mahout 是 否 安装 成 功 。 
输入 Mahout 命 令 ， 查 看 是 否 有 如 下 输出 。 


[hadoopémaster mahout-distribution-0.9]$./mahout 
MAHOUT LOCAL is not set; adding HADOOP CONF DIR to classpath. 

Running on hadoop, using /home/hadoop/local/opt/hadoop-2.6.0/bin/hadoop and HADOOP CONF DIR-/home/hadoop/local/opt/hadoop-2.6.0/etc/hadoop 
MAHOUT-JOB: /home/hadoop/local/opt/mahout-distribution-0.9/mahout-examples-0.9-job.jar 


An example program must be given as the first argument. 
Valid program names are: 


arff.vector: : Generate Vectors from an ARFF file or directory 

baumwelch: : Baum-Welch algorithm for unsupervised HMM training 

canopy: : Canopy clustering 

cat: : Print a file or resource as the logistic regression models would see it 

cleansvd: : Cleanup and verification of SVD output 

clusterdump: : Dump cluster output to text 

clusterpp: : Groups Clustering Output In Clusters 

cmdump: : Dump confusion matrix in HTML or text formats 

concatmatrices: : Concatenates 2 matrices of same cardinality into a single matrix 

cvb: : LDA via Collapsed Variation Bayes (Oth deriv. approx) 

cvbO local: : LDA via Collapsed Variation Bayes, in memory locally. 

evaluateFactorization: : compute RMSE and MAE of a rating matrix factorization against probes 
fkmeans: : Fuzzy K-means clustering 

hmmpredict: : Generate random sequence of observations by given HMM 

itemsimilarity: : Compute the item-item-similarities for item-based collaborative filtering 
kmeans: : K-means clustering 

lucene.vector: : Generate Vectors from a Lucene index 

lucene2seq: : Generate Text SequenceFiles from a Lucene index 

matrixdump: : Dump matrix in CSV format 

matrixmult: : Take the product of two matrices 

parallelALS: : ALS-WR factorization of a rating matrix 

qualcluster: : Runs clustering experiments and summarizes results in a CSV 
recommendfactorized: : Compute recommendations using the factorization of a rating matrix 
recommenditembased: : Compute recommendations using item-based collaborative filtering 
regexconverter: : Convert text files on a per line basis based on regular expressions 
resplit: : Splits a set of SequenceFiles into a number of equal splits 

rowid: : Map SequenceFile«Text,VectorWritable» to {SequenceFile<IntWritable, VectorWritable>, SequenceFile«IntWritable, Text») 
rowsimilarity: : Compute the pairwise similarities of the rows of a matrix 
runAdaptiveLogistic: : Score new production data using a probably trained and validated AdaptivelogisticRegression model 
runlogistic: : Run a logistic regression model against CSV data 

seq2encoded: : Encoded Sparse Vector generation from Text sequence files 

seq2sparse: : Sparse Vector generation from Text sequence files 

seqdirectory: : Generate sequence files (of Text) from a directory 

seqdumper: : Generic Sequence File dumper 

seqmailarchives: : Creates SequenceFile from a directory containing gzipped mail archives 
seqwiki: : Wikipedia xml dump to sequence file 

spectralkmeans: : Spectral k-means clustering 

split: : Split Input data into test and train sets 

splitDataset: : split a rating dataset into training and probe parts 

ssvd: : Stochastic SVD 

streamingkmeans: : Streaming k-means clustering 

svd: : Lanczos Singular Value Decomposition 

testnb: : Test the Vector-based Bayes classifier 

trainAdaptiveLogistic: : Train an AdaptivelogisticRegression model 

trainlogistic: : Train a logistic regression using stochastic gradient descent 

trainnb: : Train the Vector-based Bayes classifier 

transpose: : Take the transpose of a matrix 

validateAdaptiveLogistic: : Validate an AdaptivelogisticRegression model against hold-out data set 
vecdist: : Compute the distances between a set of Vectors (or Cluster or Canopy, they must fit in memory) and a list of Vectors 
vectordump: : Dump vectors from a sequence file to text 

viterbi: : Viterbi decoding of hidden states from given output states sequence 


上 面 命令 中 的 即 为 Mahout 可 以 使 用 的 命令 参数 ， 包 含 各 个 算法 运行 以 及 对 数据 的 转换 处 理 等 命令 ， 比 如 /Mahoutsvd， 即 运行 svd 算 法 。 


Ñ 


这 里 建议 读者 直接 下 载 Mahout 0.10.0, Mahout 0.10.0 支 持 Hadoop 2.x 的 版 本 的 。 下 载 Mahout 0.10.0 的 发 行 版 ， 并 解压 后 ， 只 用 参考 上 面 4) 步骤 做 些 配 置 即 可 ， 然 后 同样 使 用 5) 步骤 来 检测 是 否 
安装 成 功 。 为 方便 起 见 ， 下 面 的 开发 都 是 基于 Mahout 0.10.0 的 。 


Ñ 


15.3 ”基于 Mahout 算 法 接口 的 二 次 开发 0000 


15.3.1 Mahout 算 法 实例 


下 面 以 K-Means 聚 类 分 析 算 法 为 例 ， 演 示 使 用 Mahout 的 K-Means 算 法 的 命令 来 调用 K-Means 算 法 进行 运算 的 过 程 。 


1) 下 载 样本 数据 ， 并 上 传 到 HDFS 目 录 。 下 载 地 址 如 下 : http://archive.ics.ucii.edu/ml/databases/synthetic_control/synthetic_control.data 


[hadoop@master ~]$wget http://archive.ics.uci.edu/ml/databases/synthetic control/synthetic control.data 
# 创 建 目录 前 ， 请 使 用 ls 命令 确认 hdfs 上 存在 /user/hadoop/ 目 录 

[hadoop@émaster ~]Shdfs dfs -mkdir /user/hadoop/testdata 

# 将 本 地 的 样本 数据 拷贝 至 hdfs 
[hadoop@master ~]$hdfs dfs -copyFromLocal synthetic control.data /user/hadoop/testdata 


测试 数据 是 由 Alcock R.J.]Manolopoulos Y. 在 1999 年 利用 程序 合成 的 600 个 样本 的 控制 图 数据 ， 每 个 样本 包括 60 个 属性 列 ， 一 共 可 以 分 为 6 类 ， 分 别 为 : 正常 (C) 、 循 环 (B) 、 上 升 趋势 (E) 、 下 
降 趋势 (A) 、 向 上 移 位 (D) 、 向 下 移 位 (F) 。 图 15-1 为 每 个 类 别 的 10 个 样本 数据 图 。 


图 15-1 测试 数据 示意 图 


2) 数据 预 处 理 。 


[hadoop@émaster~]Shadoop jar /home/hadoop/local/opt/mahout-distribution-0.10.0/mahout- 
integration-0.10.0.jar org.apache.mahout.clustering.conversion.InputDriver -i /user/ha- 
doop/testdata -o /user/hadoop/input/seqfile 


3) 使 用 Mahout 命 令 调用 K-Means 算 法 进行 聚 类 分 析 。 


[hadoop@émaster ~]Smahout kmeans -i /user/hadoop/input/seqfile -o /user/hadoop/kmeans/ 
output -c /user/hadoop/kmeans/clusters -k 6 -x 3 


其 中 ， 参 数 -表示 输入 路 径 ， 参 数 -o 表 示 输 出 路 径 ， 参 数 -c 表 示 中 心 向 量 文件 ， 参 数 -k 表 示 聚 类 的 个 数 ， 参 数 -x 表示 最 大 循环 的 次 数 。 


4) 查看 聚 类 结果 。 


由 于 Mahout 的 K-Means 算 法 计算 处 理 的 聚 类 中 心 的 结果 文件 是 sequenceFile (序列 文件 ) ， 该 文件 是 不 可 读 的 ， 所 以 聚 类 的 结果 不 能 直接 打开 查看 ， 需 


通过 clusterdump 命 令 


令 转 换 。 


[hadoop@émaster ~]Smahout clusterdump -i /user/hadoop/kmeans/output/clusters-3-final -o 
local/opt/result.txt 


运行 上 面 的 命令 ， 在 local/opt/cluster/kmeans.cluster_result.txt 文 件 中 查看 结果 ， 即 可 得 到 以 下 数据 。 


CL-79{n=249 c=[29.966, 29.673, 30.132, 30.736, 30.628, 31.053, 31.035, 31.130, 31.254, 

31.392, 31.294, 31. 827, 31. 854, 31.896, 31 948, 32. 034, S2. 186, 32. 456, 32.574, 32. 857, 

3337147334 939, 34.145, 34.905, 34.892, 35.724, 36.019, 36.128, 36.718, 37.079, 36.564, 

37.496, 37.982, 38.356, 38.752, 39.243, 40.074, 40.370, 40.532, 41.080, 41.049, ILT, 

41.562, 41.678, 41.373, 42.030, 42.138, 41.928, 42.166, 42.450, 42.632, 42.841, 42.987, 43.287, 
43.420, 43.676, 43.449, 43.402, 43.836, 43.780] r=[3.495, 3.577, 3.455, 3.609, 3.793, 3.740, 

3.583, 3.539, 3.940, 3.962, 3.765, 3.867, 4.056, 3.993, 4.532, 4.319, 4.554, 4.738, 4.829, 

4.952, 5.276, 6.011, 5.927, 5.961, 6.477, 6.518, 6.829, 6.351, 6.840, 6.767, 6.930, 7.563, 

7.274, 7.263, 7.254, 7.363, 6.985, 6.845, 6.824, 7.108, 6.819, 7.164, 7.591, 7.409, 7.646, 7.984, 
7.980, 7.625, 7. 9 7.862, 7.669, 7.732, 8.134, 8.157, 8.103, 8.232, 8.791, 8.524, 8.864, 8.670]}-:- 


CQ sb OY usum 


在 上 面 的 数据 中 ，CL-79 表 示 聚 类 的 标号 ，n=249 表 示 这 一 类 有 249 个 点 ，c 表 示 中 心 点 的 坐标 ，r 表 示 每 一 个 属性 方向 上 的 半径 。 


15.3.2 Mahout 算 法 接口 的 二 次 开发 示例 


1. 开 发 环境 IDE 配 置 


开发 环境 的 软件 版 本 如 表 15-2 所 示 。 


表 15-2 软件 列表 


T T 
WER ERAH Windows JTI 
sho : 

Im WII X ERG 
Tm : 


新 建 Maven 工 程 ， 具 体 过 程 如 下 。 

(1) 新 建 Maven 工 程 

如 图 15-2 所 示 ， 建 立 Maven 工 程 。 

(2) 设置 工程 参数 

设置 Group Id73com.tipdm, Artifact Id 为 mahout， 其 他 默认 。 


创建 好 的 工程 如 图 15-3 所 示 。 


| Select a wizard 
Create a Maven Project 


(9 Interface 
us Java Project 


€ Java Project from Existing Ant Buildfile 


ies Plug-in Project 


I7] Show All Wizards. 


图 15-2 ”新 建 Maven 工 程 


4 iz» mahout 
src/main/java 
src/main/resources 


src/test/Java 


src/test/resources 


> mà JRE System Library [jdk1. 


4 (=> src 


图 15-3 ”Maven 工 程 目录 结构 


(3) 修改 pom.xml 文 件 ， 添 加 Hadoop 以 及 Mahout 的 依赖 pom.xml 文 件 的 内 容 如 下 所 示 。 


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi-"http://www.w3.org/2001/XMLSchema-instance" 

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 

http: //maven.apache.org/xsd/maven-4.0.0.xsd"» 

<modelVersion>4.0.0</modelVersion> 

<groupld>com. tipdm</groupId> 

<artifactId>mahout</artifactId> 

<version>0.0.1-SNAPSHOT</version> 

<packaging>jar</packaging> 

<name>mahout</name> 

<url>http://maven.apache.org</url> 

<properties> 
«log4j.version»2.0«/10g4j.version» 
<hadoop.version>2.6.0</hadoop.version> 
«mahout.version»0.10.0«/mahout.version» 
<project.build. sourceEncoding>UTF-8</project .build.sourceEncoding> 

</properties> 

<dependencies> 

<!-- slf4j --> 

<dependency> 
«groupId»org.slf4j«/groupld» 
«artifactlid»slf4j-10g4j12«/artifactlId» 
«version»1.7.2«/version» 

</dependency> 

<!-- 1og4] 的 依赖 --> 

<dependency> 
<groupId>org. apache. logging. 1log4j</groupId> 

> 


<artifactId>log4j-api</artifactId 
<version>$ {log4j.version}</version> 

</dependency> 

<dependency> 
<groupId>org. apache. logging. 1log4j</groupId> 
<artifactId>log4j-core</artifactId> 
<version>${log4j.version}</version> 

</dependency> 

<!-- Hadoop dependency --> 

<dependency> 
<groupId>org. apache .hadoop</grouplid> 
<artifactId>hadoop-mapreduce-client-core</artifactId> 
<version>S$ {hadoop.version}</version> 

</dependency> 

<dependency> 
<groupId>org. apache. hadoop</grouplId> 
<artifactId>hadoop-common</artifactId> 
<version>S$ {hadoop.version}</version> 

</dependency> 

<dependency> 
<groupId>org. apache .hadoop</grouplId> 


<artifactId>hadoop-hdfs</artifactId> 
<version>S$ {hadoop.version}</version> 
</dependency> 
<dependency> 
<grouplId>org. apache. hadoop</grouplid> 
<artifactId>hadoop-mapreduce-client-common</artifactId> 
<version>S$ {hadoop.version}</version> 
</dependency> 
<dependency> 
<groupId>org. apache. hadoop</grouplid> 
<artifactId>hadoop-mapreduce-client-jobclient</artifactId> 
<version>S$ {hadoop.version}</version> 
</dependency> 
<!-- Mahout dependency --> 
<dependency> 
<artifactId>mahout-hdfs</artifactId> 
«groupId»org.apache.mahout«/groupId» 
«version»$(mahout.version]«/version» 
«/dependency» 
«dependency» 
<artifactId>mahout-mr</artifactId> 
<groupld>org.apache.mahout</groupId> 
«version»$(mahout.version]«/version» 
</dependency> 
<dependency> 
<artifactId>mahout-math</artifactId> 
«groupId»org.apache.mahout«/groupId» 
«version»$(mahout.version]«/version» 
«/dependency» 
«dependency» 
<artifactId>mahout-integration</artifactId> 
«groupId»org.apache.mahout«/groupId» 
«version»$(mahout.version]«/version» 
<optional>true</optional> 
</dependency> 
<dependency> 
<artifactId>mahout-buildtools</artifactId> 
«groupId»org.apache.mahout«/groupId» 
«version»$ {mahout.version}</version> 
<optional>true</optional> 
</dependency> 
<dependency> 
<artifactId>mahout-examples</artifactId> 
«groupId»org.apache.mahout«/groupId» 
«version»$ {mahout.version}</version> 
<optional>true</optional> 
</dependency> 
</dependencies> 
«/project» 


Hna, At “Runas” , XeHE "Maven install” 进 行 安 装 ， 安 装 完成 后 ， 在 Console 中 可 以 看 到 下 面 的 信息 。 


[INFO] --- maven-install-plugin:2.4:install (default-install) 8 mahout --- 
[INFO] Installing D:\workspase\book\mahout\target\mahout-0.0.1-SNAPSHOT.jar to D:\maven_repo\com\tipdm\mahout\0.0.1-SNAPSHOT\mahout-0.0.1-SNAPSHOT. jar 
[INFO] Installing D:\workspase\book\mahout\pom.xml to D:\maven_repo\com\tipdm\mahout\0.0.1-SNAPSHOT\mahout-0.0.1-SNAPSHOT.pom 


[INFO] Total time: 3.188 s 
[INFO] Finished at: 2015-06-10T14:15:16+08:00 
[INFO] Final Memory: 16M/220M 


(S src/main/java 
(9 src/main/resources 
(S src/test/Java 
(8 src/test/resources 
> mà JRE System Library [jdk1.7.0 25] 
4 BA Maven Dependencies 
加 sif4j-log4j12-1.7.2jar - D:\maven_repo\o 
四 slf4j-api-1.7.2jar - DAmaven repoXorgis 
加 log4j-1.2.17 jar - D maven repoVog4jVc 
ba log4j-api-2.0jar - D:\maven_repo\org\a) 
an lag4j-core-2.0 jar = DAmaven repoXorgy 
i hadoop-mapreduce-client-core-2.6.0.jar 


T FY O F VF F VW O F F F F F F M M 


on hadoop-yarn-common-2.6.0jar - DA mar 


on hadoop-yarn-api-2.6.0,jar - D:\maven_re 


an jaxb-api-2.2.2.jar - D:\maven_repo\javax' 
回 stax-api-LO-2jar - D:\maven_repo\javax 
- activation-1.1jar - D^imaven repojavax 
加 jersey-client-1.9jar - D:\maven_repo\cor 


oa jackson-jaxrs-1.9.13.jar - D'maven repo 
fa jackson-xc-1.9.13.jar - DAmaven repoXo: 


2.Mahout 算 法 接口 的 二 次 开发 


加 hadoop-auth-2.6.0jar - D'umaven repoXorga 
apacheds-kerberos-codec-2.0.0-M15.jar - D^ 
回 apacheds-i18n-2.0.0-M15.jar - D:\maven_repe 
api-asn1-api-1.0.0-M20.jar - D'maven repo 
回 api-util-1.0.0-M20Jjar - D:\maven_repo\org\ay 
curator-framework-2.6.0jar - D'maven repo! 
加 jsch-O0.L42jar - D:\maven_repo\com\jcraft\jsc 
回 curator-client-2.6.0jar - D:\maven_repo\org\z 
[e curator-recipes-2.6.0jar - D:\maven_repo\ore 
加 jsr305-1.3.9jar - D:\maven_repo\com\google 
htrace-core-3.0.4jar - D:\maven_repo\org\htr 
(a zookeeper-3.4.6jar - D:\maven_repo\org\aps 
commons-compress-1.4.1jar - D'maven rep: 
区 xz-LÜ.jar - D^jymaven repoXorgXtukaannocA 1.0 
fet hadoop-hdfs-2.6.0.jar - D:\maven_repo\org\a 
fe commons-daemon-1.0.13 jar - Di maven rep« 
[s xercesImpl-2.9.Ljar - D:\maven_repo\werces\) 
fe xml-apis-1.3.04 jar - D:\maven_repo\xml-apis! 
回 hadoop-mapreduce-client-common-2.6.0jar 

ea hadoeop-yarn-client-2.6.0.jar - D'&maven repo' 
(a hadoop-yarn-server-common-2.6.0.jar - Dm 
leveldbjni-all-1.8jar - D:\maven_repo\org\fus: 
(= hadoop-mapreduce-client-jobclient-2.6.0jar - 
hadoop-mapreduce-client-shuffle-2.6.0,jar - E 


me guice-3.0jar - D:\maven_repo\cor 
[esd Javaxinject-Ljar - Dmaven repo 
ls aopalliance-1.0jar - Dmaven rer 
[eva jersey-quice-1.9jar - D:\maven_re 
ls protobuf-java-2.5.0jar - D:\maver 
- avro-1.7.À jar - D-\maven_repo\or 
(oud paranamer-2.3jar - D:\maven_rep 
snappy-java-1.0.4.1jar - D:\maver 
ls hadoop-annctations-2.6.0,jar - D^ 
也 tools.jar - D:\Users\Administrator 
lei Quice-serviet-3.0jar - Di maven rt 
jad netty-3.6.2.Final.jar - D maven rer 
là hadoop-common-2.6.0Jar - Dm: 
加 guava-11.0.2jar - DA maven repo 
commons-cli-L2 jar - Dmaven re 
jaa commons-math3-3.1.1jar - Dima 
i xmlenc-0.52jar - D:\maven_repolp 
四 commons-httpclient-3.1jar - Dm 
li commons-codec-1.4 jar - D:\mave 
le commons-io-2.4 jar - D'maven re 
commaons-net-3.1jar - D'imaven 1: 
[esd commons-collectons-3.2.1jar - D 
(wo servlet-api-2.5jar - Dmaven rep: 
- jetty-5.L.264ar - D:\maven_repo\o 
id hadoop-yarn-server-nodemanager-2.6.0 jar 
i mahout-hdfs-0.10.0jar - D:\maven_repo\org 
的 hadoop-client-2.4.1jar - D'imaven repoXorg 
is hadoop-mapreduce-client-app-2.4.1.jar - D^ 
fd commons-lang3-3.Ljar - D:\maven_repo\ore 
z xstream-1.4.4jar - D:\maven_repocomthou 
四 xmlpull-1.1.3.1jar - Dmaven, repo'xmlpull 


i lucene-core-4.6.Ljar - DA maven repoorg a 
i lucene-analyzers-common-4,6.1jar - D^ maw 
T commons-cli-2.0-mahout.jar - DAmaven_rep 
fe solr-commons-csv-3,5.0.jar - DAmaven repo 
ld mahout-mr-0.10.0jar - D'maven repo\org\ 
四 mahout-math-0.10.0.jar - D maven repoXort 
(ed t-digest-3.Ljar - D:\maven_repo\com\tdunni 
四 mahout-integration-0.10.0Jar - DAmaven rer 


p 
b 


b 
b 
b 
b 
p 
b 
p 
| xpp3_min-1.1.4cjar - D:\maven_repo\spp3\x p fà lucene-queries-4.5.Ljar - D:\mav 
b 
b 
b 
b 
b 
b 
b 
b 


jetty-util-6.1.26.jar = D:'ymaven repx« 
四 jetty j \ rep 
fed jersey-core-L.9.jar - D:\maven_rep 
jersey J 
jersey-json-1.9jar - DAmaven_rem 
四 jersey-j j \ ep 
fad jettison-LLjar - Ce\maven_repo\or 
CE j 
四 jaxb-impl-2.2.3-Ljar - De\maven_re 
jersey-server-1.9jar - D'maven re 
li asm-3.1jar - D maven repoxXasm 
i jasper-compiler-5.5.23 Jar - D:\ma 
四 jasper-compi j 
li jasper-runtime-5.5.23. jar - Di\mav 
J J 
Isp-api-Z.Ljar - Drnawen repoWan 
|i jsp-api-2.1j poj 
站 commons-el-1.0jar - Di\maven_rel 
a commons-logging-1.1.3jar - Dm 
jets3t-0.9.0jar - D:\maven_repo\ne 
四 j j p 
fea httpclient-4.1.2.jar - D:\maven_rep: 
m httpcore-4.1.2.jar - D'maven repo 
ua java-xmlbuilder-0.4.jar - D:\maven. 
J J 
commons-lang-2.6jar - D:\maven_ 
et ng-2.5j 
[n commons-configuration-1.6.jar - C 
I] commons-digester-1.8jar - Dima 
(wi commons-beanutils-1.7.0.jar - Dr 
le commons-beanutils-core-1.8.0 jar 
[ni jackson-core-asl-1.9.13 jar - D:\me 
| jackson-ma -asl-1.9.13jar - D: 
bn j pper j 
fed gson-2.2.4jar - D:\maven_repo\co 
là findbugs-annotations-1.3.9-1 jar - 
i junit-4.1Ljar - D:\maven_repo\jun 
站 hamcrest-core-1.3 jar - DAmaven 
là mahout-buildtools-0.10.0jar - D^ 
là mahout-examples-0.10.0jar - D 
li lucene-benchmark-4.6.1,jar - Dy 
kà lucene-highlighter-4.6.1.jar - D:\m 


ee lucene-memory-4.6.1.jar - Dmav 
là lucene-queryparser-4.6.1jar - D, 
四 lucene-sandbox-4.6.1jar - Dma 
(ud jakarta-regexp-L4.jar - D:\maven 
ls lucene-facet-4.6.1jar - D:\maven_ 
bhd lucene-spatial-4,6.1jar - DA mave 
là spatial4j-0.3.jar - D:\maven_repo\ 
ine icudj-49.1 jar - D:\maven_repo\co 


im hbase-client-1.0.0jar - D:\maven_repo\orgia p là nekohtml-1.9.17 jar - D'imaven re 
m hbase-annotations-1.0.0jar - D:\maven_repo © sre 


四 hbase-common-10.0jar - D:\maven_repo\or G main 

ua hbase-protocol-LO.Ojar - D'maven repoNor È test 

i netty-all-4.0.23.Final.jar - O-\maven_repo\io\r (£ target 

ed htrace-core-3.1.0-incubating.jar - D'maven ! a (2 maven-archiver 


- kodings-1.0.8jar - D:\maven_repo\org\jruby 


pom.properties 


fed joni-2.1.2Jar - D:\maven_repolorg\jruby\joni 强 mahout-0.0.1-SNAPSHOT jar 


图 15-4 构建 好 的 工程 


开发 环境 |DE 配 置 完成 后 ， 即 可 进行 Mahout 算 法 接口 的 二 次 开发 。 这 里 仍然 使 用 K-Means 算 法 来 演示 。 


(1) 连接 集群 


ina] pem.xml 


由 于 这 里 使 用 Java 程 序 提交 任务 给 Hadoop 集 群 ， 所 以 需要 指定 Hadoop 集 群 ， 包 括 集 群 的 主 节点 IP 等 参数 。 以 第 2 章 配置 的 Hadoop 和 集群 为 例 ， 使 用 代码 连接 该 集群 ， 如 代码 清单 15-1 所 示 。 


代码 清单 15- 


1 配置 Configuration 连 接 集群 


package hadoop; 
import org.apache.hadoop.conf.Configuration; 
public class HadoopUtil { 

public static Configuration getConf () { 


Coni 
conf. 


conf. 
conf. 
conf. 


figuration conf = new Configuration(); 


setBoolean ("mapreduce.app-submission.cross-platform", 
set ("fs.defaultFS", "hdfs:// master:8020"); 

set ("mapreduce.jobhistory.address", "master:10020") ; 
set ("mapreduce.framework.name", "yarn"); 


true); // 配置 使 用 跨 平台 提交 
// 任务 


// 指 定 namenode 


// 指定 使 用 YA 


RN 框架 


conf.set("yarn.resourcemanager.address", "master:8032"); // 指定 resourcemanager 
conf.set ("yarn. resourcemanager.scheduler.address", "master:8030");// 指定 资源 分 配器 
return conf; 


可 以 使 用 代码 清单 15-2 来 确定 是 否 可 以 连接 集群 。 


代码 清单 15-2 ”确认 集群 连接 代码 


package hadoop; 
import org.apache.hadoop.conf.Configuration; 


import org.apache.hadoop.mapreduce.Cluster; 
import org.apache.hadoop.mapreduce.ClusterMetrics; 
/ 大 大 

* 测试 Hadoop 连 接 程序 

* 

*/ 


public class TestConnection { 
public static void main(String[] args) { 
Configuration conf = HadoopUtil.getConf (); 
Cluster cluster = null; 
ClusterMetrics cm = null; 
int trackerCount --1; 
try(cluster -new Cluster (con! 
cm-cluster.getClusterStatus (); 
trackerCount = cm.getTaskTrackerCount (); 
)catch (Exception e) { 
System.out.println ("集群 不 可 连接 !1")， 
System.exit (-1); 


— 


r 


} 


System.out .Println(" 集 群 可 连接 ，trackerCount :"+trackerCount) ; 


运行 代码 清单 15-1、 代 码 清单 15-2， 可 以 得 到 类 似 下 面 的 输出 ， 即 说 明 集 群 可 以 连接 (trackerCount 的 个 数 根据 实际 情况 不 同 而 异 ) 。 


log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory) . 

log4j:WARN Please initialize the log4j system properly. 

10g4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/E:/mahout-0.9/mahout-core-0.9-job.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLFAJ: Found binding in [jar:file:/D:/.m2/repository/org/s1f4j/slf4j-10943j12/1.7.5/8s1£4j-1094712-1.7.5.jar!/org/s1f4j/impl/StaticLoggerBinder.class] 
SLF4J: See http://www.slf4j.org/codes.htmlimultiple bindings for an explanation. 

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 集 群 可 连接 ,trackerCount :2 


(2) 数据 预 处 理 接口 


由 于 Mahout 中 的 K-Means 算 法 库 针 对 的 数据 是 序列 化 的 文件 ， 同 时 key/value 键 值 对 的 value 格 式 需要 是 VectorWritable 的 ， 所 以 这 里 需要 编写 对 应 的 代码 来 进行 转换 ， 其 代码 如 代码 清单 15-3 所 示 
(这 里 借鉴 Mahout 中 的 做 法 ， 只 是 代码 部 分 修改 。InputMapper 直 接 使 用 Mahout 自 带 的 即 可 ) ， 代 码 清单 15-4 是 数据 转换 程序 的 测试 程序 。 


代码 清单 15-3 ”数据 转换 主 程序 


package hadoop; 
import java.io.IOException; 


import org.apache.commons.cli2.CommandLine; 

import org.apache.commons.cli2.Group; 

import org.apache.commons.cli2.Option; 

import org.apache.commons.cli2.OptionException; 

import org.apache.commons.cli2.builder.ArgumentBuilder; 
import org.apache.commons.cli2.builder.DefaultOptionBuilder; 
import org.apache.commons.cli2.builder.GroupBuilder; 

import org.apache.commons.cli2.commandline.Parser; 


(十 (rr dinde d 


import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.lib.input.FilelInputFormat; 

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat; 
import org.apache.mahout.common.CommandLineUtil; 

import org.apache.mahout.common.commandline.DefaultOptionCreator; 

import org.apache.mahout.math.VectorWritable; 

import org.slf4j.Logger; 

import org.slf4j.LoggerFactory; 

/** 


* This class converts text files containing space-delimited floating point numbers into 

* Mahout sequence files of VectorWritable suitable for input to the clustering jobs in 

* particular, and any Mahout job requiring this input in general. 

* 

WE 

public final class InputDriver { 

private static final Logger log = LoggerFactory.getLogger (InputDriver.class); 

private InputDriver() { 

} 

public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException { 
DefaultOptionBuilder obuilder = new DefaultOptionBuilder (); 
ArgumentBuilder abuilder = new ArgumentBuilder (); 
GroupBuilder gbuilder = new GroupBuilder () ; 


Option inputOpt = DefaultOptionCreator.inputOption () .withRequired (false) .create(); 

Option outputOpt = DefaultOptionCreator.outputOption () .withRequired (false) .create(); 

Option vectorOpt = obuilder.withLongName ("vector") .withRequired (false) .withArgument ( 
abuilder.withName ("v") .withMinimum(1) .withMaximum(1).create()).withDescription( 
"The vector implementation to use.").withShortName ("v").create(); 

Option helpOpt = DefaultOptionCreator.helpOption(); 


Group group = gbuilder.withName ("Options") .withOption (inputOpt) .withOption (outputOpt) .withOption( 
vectorOpt) .withOption (helpOpt).create(); 
try { 
Parser parser = new Parser(); 
parser. setGroup (group); 
CommandLine cmdLine = parser.parse (args) ; 
if (cmdLine.hasOption(helpOpt)) { 
CommandLineUtil.printHelp (group); 


return; 
} 
Path input = new Path(cmdLine.getValue (inputOpt, "testdata").toString()); 
Path output = new Path(cmdLine.getValue (outputOpt, "output").toString()); 
String vectorClassName = cmdLine.getValue (vectorOpt, 


"org.apache.mahout.math.RandomAccessSparseVector").toString(); 
runJob (input, output, vectorClassName); 
) catch (OptionException e) { 
log.error("Exception parsing command line: ", e); 
CommandLineUtil.printHelp (group); 
} 


} 

public static void runJob(Path input, Path output, String vectorClassName) 
throws IOException, InterruptedException, ClassNotFoundException { 
Configuration conf = HadoopUtil.getConf (); 
conf.set("vector.implementation.class.name", vectorClassName) ; 
Job job = new Job(conf, "Input Driver running over input: " + input); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (VectorWritable.class); 
job.setOutputFormatClass (SequenceFileOutputFormat.class); 
job.setMapperClass (InputMapper.class); 
job.setNumReduceTasks (0) ; 


一 


job.setJarByClass (InputDriver.class) ; 
FileInputFormat.addInputPath (job, input); 


FileOutputFormat.setOutputPath (job, output) ; 

boolean succeeded = job.waitForCompletion (true) ; 

if (!succeeded) { 
throw new IllegalStateException ("Job failed!"); 
} 

} 

} 


代码 清单 15-4 ”数据 转换 主 程序 测试 程序 


package hadoop; 

import java.io. IOException; 

import org.apache.hadoop.fs.Path; 
大 大 


* 测试 数据 转换 
*/ 


public class TestConversion { 
public static void main(String[] args) throws ClassNotFoundException, IllegalArgumentException, IOException, InterruptedException { 
// 设置 参数 
String input = "hdfs://master:8020/user/hadoop/testdata"; 
String output = "hdfs://master:8020/user/hadoop/input/seqfile"; 
String vectorClassName = "org.apache.mahout.math.RandomAccessSparseVector"; 
// 调用 数据 转换 程序 


[InputDriver.runJob (new Path (input), new Path (output), vectorClassName); 


首次 运行 代码 清单 15-4 会 出 现 如 图 15-5 所 示 的 错误 。 解 决 方法 如 下 : 下 载 Hadoop 2.6.0 安 装 包 ， 配 置 HADOOP_HOME 环 境 变量 ， 配 置 环境 变量 后 重启 计算 机 。 


java.io. IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) 
at org.apache.hadoop.util. Shell. petwinltilsPath( Shell. java: 3 |] 
at org.apache.hadoop.util.Shell.<clinit> (Shell. java:293) 
at org.apache.hadoop.util.stringutils.<clinit?(Strinputils. java:76) 
at org.apache.hadoop.cont.Configuration. getTrimmedStrings (Configuration. java: 1546) 
at org.apache.hadoop.hdfs.DFSClient.«init»(DFSClient. java:519) 
at org.apache.hadoop.hdfs.DFSClient.«init»(DFSClient. java:453) 
at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem. java:136) 
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.]java:2433) 
at org.apache.hadoop.Ts.FileSystem.access$200(FileSystem. java:88) 
at org.apache.hadoop.fs.FileSystem$Cache. petiInternal(FileSysten. java:2467) 
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSysten. java: 2449) 
at org.apache.hadoop.fs. Filesystem. pet (Filesystem. java: 367) 
at org.apache.mahout. common.iterator.sequencetfile.SequenceFileDirValuelterator.<init> (SequenceFileDirValuelterator.java:66) 
at org.apache.mahout.common.iterator.sequencefile.SequenceFileDirValuelterable.iterator (SequenceFileDirValueIterable. java:76) 
at org.apache.mahout.utils. clustering. AbstractClusterWriter .write(AbstractClusterWriter. java:113) 
at org.apache.mahout.utils. clustering. AbstractClusterwWriter.write(AbstractClusterwriter. java: 102) 


图 15-5 “系统 环境 未 配置 错误 


重新 运行 程序 ， 得 到 错误 信息 如 图 15-6 所 示 。 解 决 方法 如 下 : 在 https://github.com/srccodes/hadoop-common-2.6.0-bin 下 载 文 件 并 覆盖 Hadoop 安 装 路 径 下 的 bin 目 录 ， 将 其 中 的 hadoop.dll 拷 贝 
到 C: \\windows\\System32 下 即 可 。 


java.io.IOException: Could not locate executable E:Xhadoop-2.2.8XbinNwinutils.exe in the Hadoop binaries. 
at org.apache.hadoop.util.Shell.petQualifiedBinPath( Shell. java:278) 
at org.apache.hadoop.util. Shell. getWinUtilsPath (Shell. java: 300) 
at org.apache.hadoop.util.Shell.«clinit»(Shell.java:293) 
at org.apache.hadoop.util.Stringüutils.«clinit»(StringuUtils.]java:785) 
at org.apache.hadoop. cont.Conftiguration. petTrimmedStrings (Configuration. java: 1546) 
at org.apache.hadoop.hdts.DFSClient.<init>(DFSClient.java:519) 


at org.apache.hadoop.hdts.DFSClient. ¢init>(DFSClient.java:453) 

at org.apache.hadoop.hdts.DistributedFileSystem.initialize(DistributedFileSystem. java:136) 
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem. java : 2433) 

at org.apache.hadoop.fTs.FileSystem.access$2808(FileSystem.]java:88) 

at org.apache.hadoop.fs.FileSsystem$Cache.getlInternal(FileSystem.java:2467) 

at org.apache.hadoop.fs.FileSystem$£Cache.get(FileSystem.]java:2448) 

at org.apache.hadoop.fs.FileSystem.pget(FileSystem.]java:357) 


图 15-6 运行 代码 错误 


重新 调用 代码 清单 15-4， 在 HDFS 相 应 的 目录 下 可 以 看 到 转换 后 的 数据 (如 设置 的 输出 路 径 为 hdfs: //master: 8020/user/hadoop/input/seqfile) ， 如 图 15-7 所 示 (图 中 方 框 的 部 分 即 是 value 的 格 
式 ， 为 VectorWritable， 说 明 已 经 转换 了 ) 。 


File: /user/hadoop/input/seq file/part-m-00000 


Goto - ||usar/hadoop/input/se« x 


Go hack to air listin 


Advanced view/download options 


View Next chonk 


SEQorg apache .hadcop.io.Texttorg apache. mahout.math| vectorwritablefOO00000wOOoc, O1s009s00"000600<<0e<OOFfook:00 
Saal: O0S@A00 /DETvEIS Se LIU x8 904m0 ORBOOUFZOU0RAxOO-0 


1g—DnzdzDI$B8:irano es-DEk^8-Danrnern:eswxDeg-EDgnaasrzDsSnmxea;gssnm @=70;0+ 
§@004600;@0+0 -b§90708: O00! fon D009G00-04-62 DOOD stawkesO4079A~sO00087HO000gac/Ov0O0)g:<<08 


WO#O0028?7ne (WEADOD (@A0 gs} 0. @<cu3F 


O'@; WeOé62e+@@O0u00 'O0@:*0g0il; €930'0O/OWesvOUODO@: O0t0e@sOO0-(¢ @2000qg OF@<(OUOU004@8000,es 


=p0U 


m — = e e i as. 


(3) 调用 K-Means 算 法 库 
经 过 (2) 的 数据 转换 后 ， 可 调用 K-Mea 


代码 清单 15-5 K-Means 算 法 调用 程序 


ns 算法 来 对 数据 进行 聚 类 ， 调 用 聚 类 的 算法 代码 如 代码 清单 15-5 所 示 。 


图 15-7 


数据 转换 结果 图 


8: DO00=0@a00 


package hadoop; 


import org.apache.hadoop.conf.Config 


uration; 


import org.apache.hadoop.util.ToolRu 
import org.apache.mahout.clustering. 


* K-Means 算 法 测试 程序 
* 


* 
/ 
public class TestKmeans { 
public static void main (String[] 
// 设置 参数 
String[] argss= { 
"-i", "hdfs://mas 
"-o", "hdfs://mas 
"-c", "hdfs://mas 
"ok" j " 6" P "yg" , 


}; 
// 调用 K-Means 算 法 


nner; 
kmeans.KMeansDriver; 


args) throws Exception { 


ter:8020/user/hadoop/kmeans /ou 
ter:8020/user/hadoop/kmeans/cl 
"3 


ter:8020/user/hadoop/input/seqfile", 
tput", 


usters", 


ToolRunner.run(new Configuration(), new KMeansDriver(), argss); 


(4) 聚 类 结果 解析 接口 


由 于 Mahout 的 K-Means 算 法 库 对 数据 进行 处 理 后 ， 数 据 还 是 序列 数据 ， 是 不 可 读 取 的 ， 所 以 调用 序列 文件 解析 程序 ， 解 析 聚 类 中 心 数据 ， 其 调用 代码 如 代码 清单 15-6 所 示 。 


代码 清单 15-6 聚 类 结果 解析 程序 


package hadoop; 


import org.apache.mahout.utils.clustering.ClusterDumper; 
/** 


* 聚 类 中 心 结 果 解 析 
* 
ai 
public class TestClusterDumper { 
public static void main(String] ] 


o 


S1 
// 设置 参数 
String[] argss ={ 


"-i", "hdfs://master:8020/user/hadoop/kmeans/output/clusters-3- 


"-o", local 


EF 
// 调用 聚 类 解析 结果 


ClusterDumper.main (argss) ; 


tring local = "~/local/result.txt"; 
tring remote = "/user/hadoop/kmeans/output"; 


args) throws Exception { 


FI nal ud " 


在 相应 的 目录 ， 查 看 聚 类 结果 解析 后 的 文件 ， 结 果 如 图 15-8 所 示 。 


[hadoop@master ~]$ cat local/result.txt 
CL-79[n-249 c=(29.966, 29.673, 30.132, 30.736, 30.628, 31.053, 31.035, 31.130, 31.254, 31.392, 31.294, 
[1.827, 31.854, 31.896, 31.948, 32.034, 32.186, 32.456, 32.574, 32.857, 33.214, 33.939, 34.145, 34.905, 
4.692, 35.724, 36.019, 36.126, 36.718, 37.079, 36.564, 37.496, 37.982, 38.356, 36.752, 39.243, 40.074, 
0.370, 40.532, 41.060, 41.049, 41.677, 41.562, 41.678, 41.373, 42.030, 42.136, 41.926, 42.166, 42.450, 
2.632, 42.841, 42.987, 43.287, 43.420, 43.676, 43.449, 43.402, 43.836, 43.780] r=[3.495, 3.577, 3.455, : 
509, 3.793, 3.740, 3.583, 3.539, 3.940, 3.962, 3.765, 3.867, 4.056, 3.993, 4.532, 4.319, 4.554, 4.736, 
4.829, 4.952, 5.276, 6.011, 5.927, 5.961, 6.477, 6.518, 6.829, 6.351, 6.840, 6.767, 6.930, 7.563, 7.274, 
7.263, 7.254, 7.363, 6.985, 6.845, 6.824, 7.108, 6.819, 7.164, 7.591, 7.409, 7.646, 7.984, 7.980, 7.625 
» 71.715, 7.862, 7.669, 7.732, 8.134, 8.157, 8.103, 8.232, 8.791, 8.524, B.B64, 8.670]] 
CL-175{n=97 c-[29.879, 33.758, 36.193, 37.916, 36.766, 34.992, 32.412, 28.990, 26.392, 23.772, 21.875, 
2.862, 25.483, 28.652, 31.666, 34.683, 36.413, 37.291, 35.726, 32.871, 30.761, 27.496, 25.384, 23.929, 
4.303, 25.563, 27.793, 30.714, 32.410, 34.298, 34.782, 34.236, 32.507, 30.863, 29.373, 27.801, 26.355, 
‘6.179, 25.986, 27.692, 29.156, 31.078, 32.514, 31.797, 31.913, 32.048, 31.221, 30.165, 29.636, 28.807, 
8.147, 28.317, 28.261, 28.493, 29.327, 29.952, 30.187, 30.240, 30.471, 31.140] r-2[3.442, 4.117, 5.999, 
l.707, 7.055, 5.776, 4.353, 4.061, 4.991, 6.251, 6.676, 5.763, 6.049, 5.041, 5.103, 5.874, 6.648, 6.060, 
(6.234, 6.524, 6.433, 5.893, 6.291, 6.391, 5.923, 6.638, 6.692, 6.6062, 6.984, 6.261, 5.916, 6.910, 7.030, 
7.773, 7.779, 7.038, 6.292, 6.227, 6.638, 6.908, 8.256, 7.087, 7.349, 7.177, 7.077, 7.613, 7.748, 7.932 
|l, 7.624, 7.318, 7.316, 8.004, 7.949, 7.938, 7.366, 7.994, 7.897, 7.317, 7.824, 7.622]] 
'CL-335[n-68 c-[29.966, 29.937, 30.125, 29.156, 29.446, 29.243, 29.264, 29.323, 29.251, 29.423, 29.394, 
B.459, 28.697, 28.433, 28.129, 28.129, 28.359, 27.700, 28.402, 28.797, 28.690, 26.524, 26.683, 26.743, 
5.907, 24.116, 24.582, 23.834, 23.378, 22.743, 22.101, 21.323, 20.299, 18.757, 17.374, 16.745, 16.058, 
5.968, 14.759, 15.374, 15.276, 14.302, 15.066, 15.134, 14.473, 14.512, 12.734, 13.935, 14.428, 14.167, 
4.765, 14.374, 13.854, 13.570, 13.411, 13.123, 13.604, 13.644, 13.131, 13.520] r=[3.334, 3.416, 3.377, 
|.255, 3.603, 3.665, 3.743, 3.704, 3.993, 3.796, 3.333, 3.677, 3.552, 3.743, 3.741, 4.026, 4.093, 4.163, 
|4.139, 3.646, 5.127, 6.036, 5.885, 6.576, 6.065, 6.892, 6.635, 6.910, 7.272, 8.001, 7.461, 7.745, 7.566, 
7.430, 6.941, 5.699, 6.329, 6.176, 4.977, 4.030, 3.615, 4.574, 3.469, 4.068, 3.957, 3.922, 3.794, 3.121 
|, 43.283, 3.963, 3.697, 3.821, 3.727, 3.404, 3.943, 3.543, 3.742, 3.752, 4.067, 4.228]] 


图 15-8 RAP S ENTIS 


通过 对 比 15.3.1 节 的 数据 结果 和 图 15-8， 可 以 发 现 两 种 方式 得 到 的 结果 是 一 致 的 。 


本 章 首先 介绍 Mahout 及 其 详细 环境 搭建 配置 ， 方 便 读者 根据 配置 流程 搭建 开发 环境 。 接 着 ， 介 绍 Mahout 的 命令 行 用 法 ， 并 使 用 K-Means 算 法 的 Mahout 命 令 实例 来 演示 Mahout 命 令 行 的 用 法 。 最 
后 ， 使 用 Java 工 程 来 调用 Mahout 的 K-Means 算 法 库 ， 介 绍 如 何 把 Mahout 的 K-Means 算 法 库 引 入 Java 工 程 中 ， 并 且 用 实例 演示 针对 K-Means 算 法 库 调 用 的 数据 接口 ， 从 最 开始 的 IDE 环 境 搭 建 ， 到 K- 
Means 算 法 的 各 个 接口 ， 再 到 结果 的 展示 分 析 等 。 通 过 实例 的 介绍 ， 将 读者 引入 基于 Hadoop 框 架 的 大 数据 挖掘 开发 的 道路 。 


随 着 企业 信息 化 的 推进 和 应 用 水 平 的 不 断 提 高 ， 企 业 中 积累 的 数据 规模 越 来 越 庞大 。 如 何 有 效 地 利用 历史 数据 ， 挖 气 出 有 价值 的 信息 ， 从 而 帮助 企业 能 够 对 未 来 变化 作出 及 时 正确 的 决策 ， 最 终 在 激烈 
的 市 场 竞争 中 占据 主动 ， 已 经 成 为 当前 企业 越 来 越 迫 切 想 要 解决 的 问题 。TipDM-HB 大 数据 挖掘 开 发 平台 就 是 这 样 一 套用 于 从 大 量 的 企业 数据 中 挖掘 出 智能 知识 ， 并 且 快 速 定制 应 用 的 二 次 开发 平台 。 
TipDM-HB 大 数据 挖掘 建 模 平 台 提 供 多 种 算法 模型 的 Web 服 务 接口 ， 可 供 开 发 人 员 调 用 ， 减 小 开发 难度 、 周 期 ， 加 快 工作 效率 。 下 面 介绍 TipDM-HB 数 据 挖掘 开发 平台 的 各 个 Web 服 务 ， 同 时 给 出 开发 实 
例 ， 使 读者 不 仅 可 以 了 解 使 用 TipDM -HB 大 数据 挖掘 建 模 平 台 进行 二 次 开发 的 各 个 流程 ， 还 可 以 实战 练习 ， 加 深 理 解 。 


TipDM-HB 大 数据 挖掘 建 模 平台 以 智能 预测 算法 为 核心 ， 采 用 Apache CXF 提 供 的 RESTful 风 格 的 标准 应 用 接口 ， 以 满足 企业 复杂 的 应 用 需求 。 基 于 该 平台 提供 的 接口 ， 能 方便 地 在 DEPHI、PB、VC、 
VB、NET、Java 等 环境 进行 二 次 开发 调用 。 产 品 可 广泛 运用 在 金融 业 、 保 险 业 、 电 信 业 、 证 券 业 、 制 造 业 、 零 售 业 、 生 物 制 药 等 各 行 各 业 。 


TipDM-HB 大 数据 挖掘 建 模 平 台 以 方案 为 主导 ， 加 载 数据 完成 后 ， 可 以 构建 各 个 方案 的 模型 。 构 建 模 型 是 根据 实际 应 用 问题 来 选择 的 ， 在 TipDM-HB 大 数据 挖掘 建 模 平 台中 可 选 的 模型 算法 主要 包括 
分 类 分 析 模 型 、 聚 类 分 析 模 型 、 关 联 规则 模型 、 智 能 推荐 模型 。 针 对 具体 实际 问题 选择 好 模型 (此 时 默认 数据 已 经 加 载 ) ， 设 置 模型 参数 即 可 调用 TipDM-HB 引 警 来 进行 模型 训练 。 模 型 训练 完成 后 ， 可 以 
得 到 训练 好 的 模型 ， 使 用 评价 模型 的 算法 来 对 算法 进行 评估 ， 专 业 人 员 参 与 其 中 ， 对 评估 结果 予以 评定 。 如 果 结 果 符 合生 产 实 际 要 求 ， 则 可 以 发 布 模型 应 用 到 实际 生产 中 ; 如 果 结 果 不 符合 生产 实际 要 求 ， 
则 需要 调整 数据 或 者 修改 模型 参数 重新 训练 模型 再 次 评估 。TipDM-HB 数 据 挖掘 流程 如 图 16-1 所 示 。 
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图 16-1 TipDM-HB 数 据 挖掘 流程 


在 TipDM-HB 大 数据 挖掘 建 模 平 台中 构建 模型 是 重要 环节 ， 常 用 的 数据 挖掘 模型 包括 分 类 分 析 、 聚 类 分 析 、 关 联 规则 挖 握 和 智能 推荐 等 模型 ， 每 个 模型 的 建 模 方式 大 同 小 异 。 以 分 类 与 预测 模型 为 例 ， 
模型 构建 流程 如 图 16-2 所 示 。 


测试 样本 
> 方案 管理 、 数 据 管理 
> 数据 探索 〈 可 选 ) 


> 数据 预 处 理 《 可 选 ) 训练 样本 


设置 /优化 
建 模 参数 


模型 训练 


图 16-2 分 类 与 预测 模型 建 模 流程 


模型 构建 的 目的 是 基于 专家 样本 数据 ， 通 过 算法 形成 一 个 稳定 、 可 用 的 预测 模型 (可 理解 为 一 个 公式 ) ， 如 图 16-2 所 示 的 “Model”。 该 模型 在 训练 结束 后 被 存 入 一 个 模型 文件 中 ， 供 模型 实际 应 用 中 
加 载 调用 。 


基于 TipDM-HB 的 数据 挖掘 二 次 开发 主要 就 是 针对 图 16-1 中 各 个 过 程 的 Web 服 务 调用 ， 即 客户 端 调用 TipDM-HB 大 数据 挖掘 建 模 平台 进行 创建 方案 、 加 载 数据 、 构 建 模型 、 评 价 模型 和 应 用 模型 等 步骤 
的 过 程 。 在 每 个 步骤 的 调用 中 ， 直 接 通过 Web 服 务 发 送 服务 调用 的 参数 和 命令 即 可 ， 调 用 封装 了 算法 具体 调用 的 各 个 细节 ， 从 而 避免 直接 开发 算法 的 开销 。 


TipDM-HB 大 数据 挖掘 建 模 平 台 提供 的 Web 服 务 接口 主要 有 : 创建 方案 Web 服 务 接口 、 数 据 加 载 Web 服 务 接口 、 分 类 分 析 模 型 调用 Web 服 务 接口 、 聚 类 分 析 模 型 调用 Web 服 务 接口 、 关 联 规则 模型 调 
用 Web 服 务 接口 、 智 能 推荐 模型 调用 Web 服 务 接口 、 模 型 评价 Web 服 务 接口 、 模 型 应 用 Web 服 务 接口 。 各 个 Web 服 务 接口 调用 参数 如 表 16-1 所 示 。 


表 16-1 Web 服 务 接 口 调用 参数 列表 


服务 必须 
appcode 接 和 人 系统 在 TipDM 数 String( 32) Hi 
idi 据 挖掘 平台 所 得 的 注册 码 = 
在 TipDM 数据 挖掘 平 | 、. 
是 


http://www. tipdm. 方案 名 称 String (50 ) 


创建 方案 € | 方案 的 应 用 类 别 ， 当 前 
scheme/create / | app- 可 选 类 型 为 ， 
code | / | userld} 100. 数据 分 类 

101; 聚 类 分 析 

102; 关联 规则 

103: 智能 推荐 


针对 方案 的 描述 信息 


接 入 系统 在 TipDM- HB 

http://www. tipdm. 数据 挖 据 平台 所 得 的 注册 码 

数据 加 载 cn/ forecast/ api/ data/ 在 TipDM- HB 数据 挖掘 
uploadData/ | appcode | 平台 新 建 方案 ID 


样本 数据 文件 路 径 File 是 


String (5 ) 是 


String( 100) fr 


String( 32) P 


String( 32) 是 


接 入 系统 在 TipDM- HB 


数据 挖掘 平台 所 得 的 注 


在 TipDM-HB 数据 控 据 | 。 
平台 新 建 方案 ID 


输入 文件 数据 属性 列 描 
述 ， 属 性 列 不 参加 建 模 的 
使 用 I 表示 ,属性 列 是 离 


String (32) 是 


http://www. tipdm. 
分 类 分 析 模 型 / | cn/forecast/api/algo- 


散 的 使 用 C 表示 ， 属 性 
列 是 连续 的 使 用 N 表示 ， 


String( 255) 是 


Random Forest 算法 | rithm/classify/train/ J 
lameda E 属性 列 是 输出 类 别 的 使 用 
3 L 表示 
随机 选取 属性 的 个 数 。 | Integer 是 
决策 树 是 否 分 文 的 数据 


minsplit Integer 是 


RFE (EL 


, 随机 森林 中 决策 树 的 | ，， B 
nbtrees 个 数 nteger AE 


e 


续 ) 


( 
服务 参数 说 明 必须 


接 入 系统 在 TipDM 数 
appcode 据 挖 据 平 台所 得 的 注 | String(32) 是 
册 码 
在 TipDM- HB 数据 挖掘 l 
schemeld 平台 新 建 方案 ID String (32 ) 十 


聚 类 数目 
距离 函数 (可 选项 有 : 
SIMILARITY _ COOCCUR- 
RENCE, SIMILARITY _ 
LOGLIKELIHOOD, SIMI- 
LARITY TANIMOTO CO- 
EFFICIENT, SIMILARITY 
. CITY _ BLOCK, SIMI- 
LARITY _ COSINE, SIMI- 
LARITY PEARSON COR- 
RELATION, SIMILARITY _ 
EUCLIDEAN DISTANCE) 


iterationNum TEAR IR Integer 是 


clusterNum Integer 是 


http://www. tipdm. 


聚 类 分 析 模 型 / | cn/forecast/api/algo- 
K-Means 聚 类 算法 | rithm/cluster/| app- 
code | / 


distanceMeasure 


urqjriog[e 


String( 200) A 


suivjued 


seedNum 随机 数 种 子 Integer 否 
接 人 系统 在 TipDM- HB 
appcode 数据 挖掘 平台 所 得 的 注 | String(32 ) 是 
WAYS 
http://www. tipdm. 
il Wl i 
E - 2 cn/ forecast/ api algo- — 在 TipDM- HB 数据 挖掘 String(32) 是 
规 Ü | i rithm/ association/ 3 平台 新 建 方案 ID 
09 
pi E Tuam | a TREE 
idee | e [one | a 
接 入 系统 在 TipDM- HB 
appcode 数据 挖掘 平台 所 得 的 注 | String(32) 是 
JH 
在 TipDM- HB 数据 挖掘 
I 2 
http://www. tipdm. EUG 平台 新 建 方案 ID E 
智能 推荐 模型 | E numrecommend Integer 是 
rithm/recommend/ w = 
(s maxSimilarityltem 最 多 相似 项 目 Integer 是 
| appcode } 9 
e 
nessun | RXHEE [Dae | e 
RA Dae | 
uno — [sw | 


( Be 


服务 类 型 。 | 必须 


接 人 系统 在 TipDM- HB 


appcode 数据 挖掘 平台 所 得 的 注 | String(32) FE 
WAS 
Sh sith http :// . tipdm. 

ER AL VE it Ran- cn/ eae i/ H N schemeld 在 TipDM- HB 数据 挖掘 String( 32) 是 
dom Forest 模型 | . ; pr ag 平台 新 建 方案 ID a 
Wf rithm/classify/evalu- | » 

: ate/ | appcode | É 以 英文 逗号 进行 分 隔 ， 
+ > EL 人 ag A^ 
pe IM TELS | Sung 是 
结果 )、 顺 序 与 专家 样本 
保持 一 致 
接 入 系统 在 TipDM- HB 
appcode 数据 挖掘 平台 所 得 的 注 | String(32 ) 是 
模型 应 用 /Ran http:/www. tipdm. 册 码 
J Forest 模型 cn/forecast/ api/ algo- 在 TipDM- HB 数据 控 据 
om fores y 
rithm/classify/ | app- He Spaa & i E 
应 用 code } | i FRENK ID — 和 


分 类 文件 的 数据 格式 需 | .. 


Apache CXF 是 一 个 开源 的 Services 框 架 ，CXF 帮 助 用 户 利用 Frontend 编 程 AP| 来 构建 和 开发 Services， 如 JAX-WS。 这 些 Services 可 以 支持 多 种 协议 ， 如 SOAP、XML/HTTP、RESTful HTTP 和 
CORBA， 并 且 可 以 在 多 种 传输 协议 上 运行 ， 如 HTTP、JMS 和 JBI，CXF 大 大 简化 了 Services 的 创建 ， 同 时 它 继承 了 XFire 传 统 ， 同 样 可 以 与 Spring 无 颖 集成 。 


16.1.2 Apache CXF 


CXF 包 含 了 大 量 的 功能 特性 ， 但 是 主要 集中 在 以 下 几 个 方面 : 
.支持 Web Services 标 准 : CXF 支 持 多 种 Web Services 标 准 ， 包 含 SOAP、Basic Profile、WS-Addtessing、WS-Policy、WS-ReliableMessapging 和 WS-Secutity。 


Frontends: CXF 支 持 多 种 “Frontend” 编 程 模型 ，CXF 实 现 了 JAX-WS API (遵循 JAX-WS 2.0TCK 版 本 ) ， 它 也 包含 一 个 “simple frontend”， 人 允许 创建 客户 端 和 EndPoint， 而 不 需要 Annotation 注 解 。 
CXF 既 支持 WSDL 优 先 开发 模式 ， 也 支持 代码 优先 开发 模式 。 


容易 使 用 : CXF 设 计 得 更 加 直观 与 容易 使 用 。 有 大 量 简单 的 API 用 来 快速 构建 代码 优先 的 Services， 各 种 Maven 的 插件 也 使 集成 更 加 容易 ， 支 持 JAX-WS API， 支 持 Spring 2.0 更 加 简化 的 XML 配置 方式 ， 


. 支持 二 进 制 和 遗留 协议 : CXF 的 设计 是 一 种 可 插 拔 的 架构 ， 既 可 以 支持 XML， 也 可 以 支持 非 XMI. 的 类 型 绑 定 ， 如 JSON 和 CORBA。 
CXF 的 设计 关键 考虑 以 下 因素 : 

` 前 端 ， 如 JAX-WS， 与 核心 代码 的 彻底 分 离 。 

RED A, 例如， 创建 客户 端 和 端点 不 需 标 注 。 

` 高 性 能 ， 最 少 的 计算 开销 。 


<- 可 时 入 的 Web 服 务 组 件 : 例如 ， 可 以 嵌入 Spting Framewotk 和 Geronimo 中 。 


16.2 TipDM-HB 大 数据 挖掘 建 模 平台 服务 开发 实例 


16.2.1 ”环境 配置 


下 面 通过 一 个 简单 的 示例 演示 如 何在 程序 中 调用 TipDM-HB 发 布 的 webService 接 口 。 
开发 环境 的 软件 版 本 列表 如 表 16-2 所 示 。 


表 16-2 软件 版 本 列表 


软件 备注 


操作 系统 Windowss 64bit 操作 系统 版 本 使 用 Windows7 a ny 
Maven Maven3. 3. 1 — 


Eclipse Eclipse 4. 4. 2 — 


m = 


1. 安 装 Maven 


访问 Maven 官 网 ， 选 择 版 本 3.3.1 下 载 (也 可 以 下 载 其 他 稳定 版 本 ) ， 解 压 到 D: \maven (这 个 目录 ， 读 者 可 自行 设置 ) 。 


配置 Maven 的 环境 。 打 开 系 统 属性 ， 选 择 “高 级 ”选项 卡 ， 单 击 “ 环 境 变量 ”配置 Maven。 新 建 系统 变量 M2_HOME。 编 辑 系统 变量 path ， 在 后 面 仍 加 Maven 的 安装 目录 。 其 过 程 如 图 16-3、 图 16-4 
所 示 。 


T [| 
s : 
p -— i 2 su 
x | o i 
z J :mm u E 


计算 机 名 | 硬件 | 高 级 | 系统 保护 | 远程 


FEAN): M2 HOME 


HADOOP HOME .— EMiadoop-2.2.0.1 

JAVA HOME D:\Program Files\Java\jdk1.7.0_75 
NUMBER OF PR... 4 

Os Windows NT 


s || ww | 


图 16-3 添加 Maven Home B 3& 


NUMBER OF PR... 4 

OS Windows NT 

Path “JAVA HOMEStAbin;;CAProgram Files ... 
PATHEXT COM:;.EXE..BAT;.CMD;.VBS;VBE;JS;JSEL.. ,, 


图 16-4  iÉ7uMaven bin E 3k 


最 后 ， 打 开 命 令 行 ， 输 入 mvn-version 查 看 是 否 输 出 对 应 的 版 本 信息 (这 里 应 该 是 输出 版 本 为 3.3.1 的 信息 ) ， 以 验证 安装 是 否 成 功 。 


2. 建 立 Maven 工 程 


下 载 Eclipse Luna 并 解压 缩 ， 运 行 Eclipse， 新 建 一 个 Maven 项 目 ， 其 新 建 过 程 如 图 16-5~ 图 16-8 所 示 。 


Select a wizard 
Create a Maven Project 


> Æ JavaScript 

b E JAXB 

p JPA 

b E Map/Reduce 
4 (> Maven 


bal Check out Maven Projects from SCM 
MS Maven Module 
IS Maven Project 

> [e Plug-in Development 

b [2 Remote System Explorer 

p Server 

b (Em SQL Development 


图 16-5 ”新建 Maven 项 目 (1) 


New Maven project 
Select project name and location 
[ ]Create a simple project (skip archetype selection) 


Location: | 


[ ]Add project(s) to working set 


Working set: v|| More. | 


+ Advanced 


图 16-6 ”新 建 Maven 项 目 (2) 


New Maven project 
Select an Archetype 


Artifact Id 
org.apache.maven.archetypes maven-archetype-mojo 
org.apache.maven.archetypes maven-archetype-portlet 

stype-profiles 


org.a pache.maven.a rc retype 
org.apache.maven.archetypes maven-archetype-site-simple 
org.apache.maven.archetypes maven-archetype-webapp 


[v] Show the last version of Archetype only [Include snapshot archetypes 


b Advanced 


图 16-7 dpEMaven mA E (3) 


New Maven project 
Specity Archetype parameters 


Version: 0.0.1-SNAPSHOT 


Packages 


Properties available from archetype: 


Name Value | Add... 


k Advanced 


图 16-8 ”新 建 Maven 项 目 (4) 


修改 pom.xml， 添 加 HttpClient 相 关 依 赖 ， 代 码 如 下 。 


<dependencies> 
<dependency> 


<groupid>org.apache.ht ttpcomponents</groupid> 
<artifactId>httpclient</artifactId> 
<version>4.3.5</version> 

</dependency> 

<dependency> 
«grouplId»org.apache.httpcomponents«/groupld» 
<artifactId>httpmime</artifactId> 
<version>4.3.5</version> 

</dependency> 

<dependency> 
«groupId»com.alibaba«/grouplId» 
<artifactId>fastjson</artifactId> 


<version>1.1.15</version> 
</dependency> 
</dependencies> 


m] 
4 > restAp 


48 src/main/Java 
IH com.tipdm.restApi 


| Clientjava 


b |J] Resultjava 
ES src/test/Java 


àa Wh IRE Cuczteam libran: hdl Fi 751 


wm LÀ: a ED ED m -—RR n um E-J ptr emer LE mm 


P Jey resourcesjar - D:\Program FilesMavaNdk1.7 
b rtjar - D:\Program Ales\Java\jdk1.7.0_75\yjre 
b oS jssejar - D:\Program Files\Java\jdk1.7.0_75)\ 
b jcejar - D:\Program FilesVavasdk1.7.0 75^ 
>» Le charsetsjar - D:\Program FilesMava*jdk1.7.C 
jirjar - DProqram FlesyJavaNdk1.7.0 75VXr 
access-bridg e-64.jar - D:\Program Files\Jav 
dnsns.ar - D:\Program Fles\Javayd k1.7.0 7 
jaccess,jar - D:\Program FilesMava'dk1.7.0 
localedata.jar - D:\Program Files\Jawa\jdk1. 
sunecjar - D:\Program Files\Java\jdk1.7.0_7 
sunjce_provider,jar - D:\Program Files\ Java’ 
sunmscapijar - D:\Program Files\Java\jdk1. 
zipfsJar - D:\Program Files\Java\jdk1.7.0_75 
4 BA Maven Dependencies 

httpclient-4.3.5.ar - C:\Users\hadoop.waha 
httpcore-4.3.2.Jar - CXUsersVhadoop.wahah 


b 


7 2 À 31.3 2 E E b: 


LI 
E 


N 


EI 


commons-longing-1.1.3.4Jar - CXUsersihado 


rx 


commons-codec-1.6jar - CAUsersVhadoop. 
httpmime-4,3.5,ar - CAUsersVhadoop.waha 
b x! fastison-1.1.15 ar - C:\Users\hadoop.waha 


te 


图 16-9 ” 建 好 的 工程 项 目 


建 好 的 工程 截图 如 图 16-9 所 示 。 


16.2.2 FRH 


下 面 以 表 16-3 所 示 的 防 窃 漏电 建 模 样本 数据 为 例 ， 构 建 分 类 分 析 模 型 及 调用 接口 (采用 Random Forest 模 型 ) 。 样 本 数据 中 前 80% 为 模型 训练 数据 ， 后 20% 为 模型 检验 样本 。 模 型 输入 项 为 电量 趋势 增 
长 指标 、 线 损 指 标 和 告 和 警 类 指标 ;输出 项 为 是 否 穷 漏电 (yes 表示 属于 窃 漏电 用 户 ，no 表 示 非 鹤 漏电 用 户 ) 。 


表 16-3 BHI AGE 


电量 趋势 
增长 指标 


4 
A 


n3 


电量 趋势 
增长 指标 


线 损 指标 | 告警 类 指标 | 是 否 窍 漏电 


数据 详 见 : 01- 示 例 数 据 / 窃 漏电 样本 数据 .csv 


1. 创 建 方案 


在 创建 方案 时 ， 


代码 清单 16-1 


需要 选择 分 类 与 预测 模型 的 appType， 其 调用 接口 描述 如 代码 清单 16-1 所 示 。 


创建 方案 接口 描述 


http KJA: POST 请 求 链 接 : http://www.tipdm.cn/forecast/api/scheme/create/ {appcode}/{userId} 
POST 数据 格式 : json 
POST 数据 例子 : { 


"scheme" : ( 


"schemeName" : " Z- € 5 fg in E78 e|", 
"appType" : "100", 
"schemeDesc" :" 构 建 分 类 与 预测 模型 " 


在 客户 端 开 发 调用 TipDM-HB 大 数据 挖掘 建 模 平 台 提供 的 创建 方案 接口 ， 假 设 已 经 存在 用 户 userld 为 “tipdm” 


单 1 6-2 所 示 。 


代码 清单 16-2 


// 设置 参数 


tring 
tring 
tring 
tring 
tring 


/ 调用 接口 


创建 方案 接口 调用 代码 


tring appcode ="40385e836bdd60d901 4bdd62bda71111"; 
userId ="tipdm"; 
url = “http://www.tipdm.cn/forecast/api/scheme/create/"+tappcodet+"/"+userld; 
schemeName =" 分 类 分 析 模 型 示例 "; 

appType="100"; 


EN 


ttpPost post = new HttpPost (url); 


String json = "{ 
"'scheme':("-* 


Án schemeName' : f" SchemeName HT "a 
"T 'appType' è ' "+appType+" ' " "4 
"'schemeDesc'!:'"+schemeDesct+"'"4 

ud } "y 


StringEntity entity = new StringEntity (json, 


ContentType.APPL 


CAT 


ON JSON) ; // 请 求 体 数据 ，json 类 型 


post.setEntity (entity); 


CloseableHttpClient 


client = HttpClients.createDefault(); 


直接 运行 代码 清 


代码 清单 16-3 


"status": 


client.execute (post) ; 


单 16-2， 即 可 在 TipDM-HB 大 数据 挖掘 建 模 乎 台 上 创建 一 个 方案 。 


创建 方案 成 功 返 回 的 JSON 数 据 


"success", 


"schemeId" :"40285e814bdd60d901 4bdd62bda70001", 


"msg" : "iL 42 6] EF ERA!" 


} 


， 且 其 注册 码 为 “40385e836bdd60d9014bdd62bda71111”， 创建 方案 代码 如 代码 清 


成 功 创建 方案 后 ， 会 返回 JJON 数 据 ， 一 般 如 代码 清单 16-3 所 示 。 


从 代码 清单 16-3 可 以 看 到 返回 的 方案 |D 为 “40285e814bdd60d9014bdd62bda70001”， 根 据 此 ID 即 可 进行 后 续 操作 。 


2. 数 据 加 载 


创建 方案 后 ， 即 可 调用 数据 加 载 Web 服 务 进 行 数据 加 载 。 因 为 数据 加 载 需要 提供 方案 ID， 所 以 这 里 使 用 上 一 步骤 中 的 方案 ID 作为 参数 。 其 调用 接口 描述 如 代码 清单 16-4 所 示 。 


代码 清单 16-4 


加 载 数据 调用 接口 摘 述 


http 请 求 方式 : POST 请 求 链接 : http://www.tipdm.cn/forecast/api/data/uploadData/ {appcode} 
POST 数据 格式 : multipart/form-data 


在 客户 端 开 发 调用 TipDM-HB 大 数据 挖掘 建 模 平 台 提供 的 加 载 数据 接口 ， 其 代码 如 代码 清单 16-5 所 示 。 


代码 清单 16-5 “加载 数据 接口 调用 代码 


// 设 置 参数 

tring appcode ="40385e836bdd60d9014bdd62bda71111"; 

tring shcemeId = "40285e814bdd60d9014bdd62bda70001"; 

tring fileName = "D:\\classify_sample.xls"; 

tring url = "http://www.tipdm.cn/forecast/api/data/uploadData/"+appcode; 

/ 调用 接口 

ultipartEntity entity = new MultipartEntity (); 

tity.addPart ("schemeId",new StringBody (SchemeId Charset. forName ("UTF-8"))); 
tity.addPart ("dataFile",new FileBody (new File (fileName) )); 

tpPost request = new HttpPost (url); 

quest.setEntity (entity) 
tpClient client=new DefaultHttpClient (); 
lient.execute (request); 
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直接 运行 代码 清单 16-5， 即 可 对 TipDM -HB 大 数据 挖 气 建 异 平台 上 的 方案 |D 为 “40285e814bdd60d9014bdd62bda70001"” 的 方案 加 载 数据 。 成 功 加 载 数据 后 ， 返 回 JSON 数 据 ， 一 般 如 代码 清单 16-6 
所 示 。 


代码 清单 16-6 ”数据 加 载 成 功 返 回 的 JSON 数 据 


{ 
"result": { 
"msg": "数据 上 传 成 功 !"， 
"schemeId":"40285e814bad60d9014bad62bda70001", 
"status":"success" 


3. 模 型 调用 


nn 


- 


数据 加 载 完 成 后 ， 即 可 调用 TipDM-HB 大 数据 挖掘 建 模 平台 提供 的 Web 服 务 接口 进行 Random Forest 建 模 ， 其 模型 调用 接口 描述 如 代码 清单 16-7 所 示 。 


代码 清单 16-7 Random Forest 模 型 调用 接口 描述 


http 请 求 方式 : POST 请 求 链 接 : http://www.tipdm.cn/forecast/api/algorithm/classify/train/[(appcode] 
POST 数据 格式 : json 
POST 数据 例子 : 
('algorithm': 
{ 


"schemelId': '40285e814bdd60d9014bdd62bda70001', 
'params':[ 
('key':'descriptor','value': '[3 N L]"}, 
{'key':'selection', 'value':2}, 
{'key':'minsplit', 'value':2}, 
('key':'seed', 'value':10}, 
{'key': 'nbtrees', 'value':5}, 


在 客户 端 开 发 调用 TipDM-HB 大 数据 挖掘 建 模 平台 提供 的 Random Forest 模 型 调用 接口 ， 其 代码 如 代码 清单 16-8 所 示 。 


代码 清单 16-8 Random Forest 模 型 接口 调用 代码 


// 参数 设置 
String appcode ="40385e836bdd60d901 4bdd62bda71111 
String schemeId = "40285e814bdd60d9014bdd62bda 70001"; 

String url = "http://www.tipdm.cn/forecast/api/algorithm/classify/train/"-*appcode; 
String descriptor = "[3 N L]"; 

int selection = 2; 

int minsplit - 2; 

int seed - 10; 

a; nbtrees=5; 

// 调用 接口 

HttpPost post = new HttpPost (url); 

String json = "{'algorithm':{" + 


CT cher 


"'schemelId':'"+schemeId+"'," 

"'params': [二 
wt key’ aci M LL oe eo "y sp 
"{'key':'selection', 'value':"+selection+ "},"™ 
"{'key':'minsplit', 'value':"+tminsplit+ "},"+ 
"['key':'seed','value':" seed nyc 
"{'key': 'nbtrees', 'value':"+nbtrees+ "),'4 

Wwe 


ud } } ms 
StringEntity entity = new StringEntity (json, 
ContentType. APPLICATION JSON) ; // 请 求 体 数据 ，json 类 型 
post.setEntity (entity); 
CloseableHttpClient client = HttpClients.createDefault(); 
client.execute (post); 


直接 运行 代码 清单 16-11， 即 可 对 TipDM-HB 大 数据 挖掘 建 模 平台 上 的 方案 ID 为 “40285e814bdd60d9014bdd62bda70001” 的 方案 执行 Random Forest 模 型 调用 。 成 功 创建 Random Forest 模 型 


返回 JSON 数 据 ， 一 般 如 代码 清单 16-9 所 示 。 


代码 清单 16-9 Random Forest 模 型 调用 成 功 返 回 的 JSON 数 据 


"result": { 
"modelPath": "/dmfile/877F0BC9-D376-10D4-FF63-0096E2389ED8.model ", 
"msg": "模型 训练 成 功 ， 训 练 结果 : 建 模 花费 时 间 : 0.58 秒 训练 数据 测试 模型 所 花 时 间 : 0.07 4 
=== 训练 误差 一 -相关 系数 0.7767 平 均 绝对 误差 0.2104 均 方 根 误差 0.3347 相 对 绝对 误差 47.0512 &% 相 对 平方 根 误差 70.7917 &% 样 本 总 数 83 


LA 
, 


"SchemeId": "40285e814bdd60d901 4bdd62bda70001", 
"status": "success" 


代码 清单 16-9 中 的 modelPath 为 训练 完成 后 生成 的 模型 文件 ，msg 中 包含 了 训练 结果 信息 。 


4 .模型 评价 


在 步骤 3 中 成 功 调 用 Random Forest 模 型 ，TipDM-HB 大 数据 挖掘 建 模 平 台 运行 Random Forest 模 型 训练 ， 训 练 完 成 后 ， 返 回 模型 的 存储 路 径 


746648309b2f.model) 。 使 用 该 模型 进行 模型 评价 ， 其 Web 调 用 接口 描述 如 代码 清单 16-10 所 示 。 


代码 清单 16-10 Random Forest 模 型 评价 调用 接口 描述 


(EP\\dmfile\\5061fb04-c7f8-488d-87da- 


http 请 求 方式 : POST 请 求 链接 : http://www.tipdm.cn/forecast/api/algorithm/classify/evaluate/ (appcode] 
POST 数据 说 明 : 
('algorithm': 

{ 


'schemeId':'40285e814bad6089014bad62bda70001', 
'modelPath':'/dmfile/5061fb04-c7£8-488d-87da-746648309b2f.model ', 
'testData':[ 


在 客户 端 开发 调用 TipDM -HB 大 数据 挖掘 建 模 平台 提供 的 Random Forest 模 型 评价 调用 接口 ， 其 代码 如 代码 清单 16-11 所 示 。 


代码 清单 16-11 Random Forest 模 型 评价 接口 调用 代码 


// 参数 设置 
String appcode ="40385e836bdd60d9014bdd62bda71111"; 
String SchemeId = "40285e814bdd60d9014bdd62bda70001"; 
// 从 模型 训练 的 结果 信息 中 获取 模型 存储 路 径 
Result result = JSON.parseObject (trainResesult, Result.class); 
String modelPath = result.getModelPath (); 
String url = " http://www.tipdm.cn /forecast/api/algorithm/classify/evaluate/"+appcode; 
HttpPost post = new HttpPost (url); 
String json = "{'algorithm':{" + 
"'schemelId':'"+schemeIdt+"', "4 
"'modelPath':'"+modelPath+"', "4 
"'testData':[" + 
"S os n 十 
“ropp le + 
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Ws 
StringEntity entity = new StringEntity(json, ContentType.APPLICATION JSON); 
post.setEntity (entity); 
HttpClient client = HttpClients.createDefault(); 
H 
S 


ttpResponse response = client.execute (post); 


ystem.out.println (E 


ntityUtils.toString (response.getEntity(), "UTF-8")); 


直接 运行 代码 清单 16-11， 即 可 对 创建 好 的 Random Forest 模 型 进行 评价 。 其 评价 结果 以 JSON 数 据 返 回 ， 一 般 如 代码 清单 16-12 所 示 。 


代码 清单 16-12 Random Forest 模 型 评价 返回 JSON 数 据 


"result": { 
"msg": "模型 评价 结果 : 
=== 模型 验证 === 
ATAB: yes 
是 否 窃 漏 电 :yes 


实际 值 ” 验 证 值 
no (87.3%) 
yes (65.28%) 


=== 混淆 矩阵 === 

ab <-- 分 类 为 

11 |a = yes 

00 |b = no 
"schemeId": "40285e814bdd60d901 4bdd62bda70001", 
"status": "success" 

} 
} 
5. 模 型 应 用 


在 第 4 步 完 成 后 ， 得 到 创建 好 的 Random Forest 模 型 的 评价 结果 。 可 以 对 此 结果 进行 判断 ， 如 果 此 结果 符合 预期 ， 即 可 使 用 此 模型 进行 实际 应 用 ; 否则 要 调整 参数 进行 模型 训练 ， 再 次 评价 。 应 用 模型 
对 新 数据 进行 分 类 的 接口 调用 描述 如 代码 清单 16-13 所 示 。 


代码 清单 16-13 Random Forest 模 型 应 用 调用 接口 描述 


http 请 求 方式 : POST 请 求 链接 : http://www.tipdm.cn/forecast/api/algorithm/classify/ {appcode} 
POST 数据 格式 : multipart/form-data 


应 用 Random Forest 模 型 进行 分 类 的 数据 文件 如 表 16-4 所 示 。 
416-4 窃 漏 电 应 用 数据 


电量 趋势 下 降 指标 线 损 指标 告警 类 指标 “| 电量 趋势 下 降 指 标 线 损 指标 告警 类 指标 


n3 


bh c | r3 
i 
| 
" 
二 | 二 | 和 二 


数据 详 见 : 01- 示 例 数据 / 窃 漏 电 应 用 数据 .csv 
在 客户 端 开 发 调用 TipDM-HB 大 数据 挖掘 建 模 平台 提供 的 Random Forest 模 型 应 用 调用 接口 ， 其 代码 如 代码 清单 16-14 所 示 。 


代码 清单 16-14 Random Forest 模 型 应 用 接口 调用 代码 


/ 参数 设置 

tring appcode ="40385e836bdd60d9014bdd62bda71111"; 

tring shcemeId = "40285e814bdd60d9014bdd62bda70001"; 

tring modelPath = "/dmfile/877F0BC9-D376-10D4-FF63-0096E2389ED8 .model"; 
tring url = "http://www.tipdm.cn/forecast/api /classify /"*appcode; 
tring dataFile = "Di s «classify data.xls"; 

/ 调用 接口 
ttpPost post = new HttpPost (url); 

ultipartEntityBuilder builder = MultipartEntityBuilder.create(); 


ZSPUMrMNNHnHNHnHMN™ 


uilder.addPart ("schemeId", new StringBody (schemeId, Charset. forName ("UTF-8"))); 
uilder.addPart ("modelPath",new StringBody (modelPath,Charset.forName ("UTF-8"))); 
file = new File(dataFile); 
uilder.addPart ("dataFile",new FileBody (file)); 
uilder.setCharset (CharsetUtils.get ("UTF-8")); 
uilder.setMode (HttpMultipartMode.BROWSER COMPATIBLE); 
ost.setEntity (builder.build()); 
ttpClient client = HttpClients.createDefault (); 
ttpResponse response = client.execute (post); 
ttpEntity entity response.getEntity(); 
InputStream is = entity.getContent(); 
String filePath = "D:\\test.xls"; 
FileOutputStream fos = new FileOutputStream(new File (filePath) ); 
int inByte; 
while((inByte = is.read()) != -1) { 
fos.write (inByte) ; 
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} 
is.close(); 
fos.close(); 


直接 运行 代码 清单 16-14， 即 可 应 用 创建 好 的 Random Forest 模 型 。 成 功 调用 TipDM-HB 大 数据 挖掘 建 模 平台 的 模型 应 用 接口 后 ， 将 分 类 结果 追加 到 原始 数据 并 以 Excel 格 式 输出 到 本 地 ， 数 据 如 表 16-5 
所 示 。 


表 16-5 Random Forest 模 型 应 用 返回 的 数据 
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电量 趋势 下 降 指标 线 损 指 标 类 别 
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本 章 首 先 对 TipDM-HB 大 数据 挖掘 建 模 平 台 进 行 了 简单 介绍 ， 包 括 TipDM-HB 大 数据 挖掘 建 模 平台 的 Webservice 服 务 以 及 Apache CXF。 接 着 ， 介 绍 了 TipDM-HB 大 数据 挖掘 建 模 平台 的 各 个 服务 接 
口 ， 方 便 读者 查询 。 最 后 给 出 一 个 实例 ， 从 最 开始 的 开发 环境 的 配置 、IDE 配 置 ， 到 针对 穷 漏 电 如 何 应 用 TipDM-HB 大 数据 挖 扬 建 模 平台 提供 的 Web 服 务 来 解决 问题 。 每 个 流程 都 给 出 了 详细 的 代码 及 接口 
描述 ， 读 者 直接 拷贝 代码 ， 简 单 修改 ， 即 可 运行 实例 ， 体 会 、 理 解 利用 TipDM-HB 大 数据 挖掘 建 模 平台 进行 开发 的 步骤 。 
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